Парсинг по признакам и запросам

  • Автор темы Автор темы vipdenya
  • Дата начала Дата начала

vipdenya

A-Parser Pro License
A-Parser Pro
Подскажите, как парсить гугл или яндекс по типу хрефера.
Т. е. есть 2 тхт файла. 1 - файл с признаками форумов, 2 - файл с кейвордами
Нужно напарсить базу ТОЛЬКО форумов. Если можно, то скиньте скриншот
 


  • Файл с запросами закидываем в папку queries/
  • Файл с кейвордами(например keywords.txt) закидываем в папку queries/subs/
  • Меняем формат запроса, указываем откуда брать дополнительные запросы(информация по всем макросам доступна при наведении курсора на данное поле)
  • Дополнительно делаем уникализацию спаршенных ссылок по домену и фильтрацию по признакам форумов

Код:
eyJwcmVzZXQiOiJGb3J1bXMgUGFyc2VyIiwidmFsdWUiOnsicGFyc2VycyI6W1si
U0U6Okdvb2dsZSIsIjEwMDAgTGlua3MgdXNlIFByb3h5Iix7InR5cGUiOiJ1bmlx
dWUiLCJyZXN1bHQiOlsic2VycCIsImxpbmsiXSwidW5pcXVlVHlwZSI6ImRvbWFp
biIsInVuaXF1ZUdsb2JhbCI6dHJ1ZX0seyJ0eXBlIjoiZmlsdGVyIiwicmVzdWx0
IjpbInNlcnAiLCJsaW5rIl0sImZpbHRlclR5cGUiOiJyZW1hdGNoIiwidmFsdWUi
OiJ2aWV3dG9waWNcXC5waHB8dmlld2ZvcnVtXFwucGhwfHZpZXd0aHJlYWRcXC5w
aHB8dGhyZWFkLXxmb3J1bVxcLnBocHxzaG93dGhyZWFkXFwucGhwfGZvcnVtZGlz
cGxheVxcLnBocHxZYUJCXFwucGx8WWFCQlxcLmNnaXx1YmJ0aHJlYWRzXFwucGhw
fHVsdGltYXRlYmJcXC5waHB8dWx0aW1hdGViYlxcLmNnaXxpbmRleFxcLnBocFxc
P3Nob3d0b3BpYz18dGhyZWFkc3x0b3BpY3xtZW1iZXJzfG1lbWJlclxcLnBocHxt
ZW1iZXJsaXN0XFwucGhwfHByb2ZpbGVcXC5waHB8dXNlcmluZm9cXC5waHB8dmll
d3RvcGljfHZpZXdmb3J1bXx2aWV3dGhyZWFkfHRvcGljfHRocmVhZHxzaG93dGhy
ZWFkfHNob3d0b3BpY3xzaG93Zm9ydW0iLCJvcHRpb24iOiIifV1dLCJyZXN1bHRz
Rm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVz
dWx0c0ZpbGVOYW1lIjoiJGRhdGVmaWxlLmZvcm1hdCgpLnR4dCIsImFkZGl0aW9u
YWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6Im5vIiwicXVlcnlGb3JtYXQi
OlsiJHF1ZXJ5IHtzdWJzOmtleXdvcmRzfSJdLCJ1bmlxdWVRdWVyaWVzIjpmYWxz
ZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsi
b25BbGxMZXZlbHMiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJO
byIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIiLCJyZXN1
bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJlc3VsdHNCdWlsZGVy
cyI6W10sImNvbmZpZ092ZXJyaWRlcyI6W119LCJwYXJzZXJzQ29uZlByZXNldHMi
OnsiU0U6Okdvb2dsZSI6eyIxMDAwIExpbmtzIHVzZSBQcm94eSI6eyJxdWVyeWZv
cm1hdCI6IiRxdWVyeSIsInBhcnNlbm90Zm91bmQiOnRydWUsImdsIjoiIiwicGFn
ZWNvdW50IjoiMTAiLCJkb19nemlwIjpmYWxzZSwiZG9tYWluIjoid3d3Lmdvb2ds
ZS5jb20iLCJ0aW1lb3V0IjoiNjAiLCJ1c2Vwcm94eSI6dHJ1ZSwiYW50aWdhdGVw
cmVzZXQiOiJkZWZhdWx0IiwiZXh0cmFxdWVyeSI6IiIsImxvY2F0aW9uIjoiIiwi
dXNlc2Vzc2lvbnMiOnRydWUsInNlcnB0aW1lIjoiIiwibGlua3NwZXJwYWdlIjoi
MTAwIiwiZmlsdGVyIjp0cnVlLCJzZXJwIjoiIiwidXNlYW50aWdhdGUiOmZhbHNl
LCJwcm94eXJldHJpZXMiOiIxNSIsInJlcXVlc3RkZWxheSI6IjAiLCJwcm94eWJh
bm5lZGNsZWFudXAiOiI2MDAiLCJmb3JtYXRyZXN1bHQiOiIkc2VycC5mb3JtYXQo
JyRsaW5rXFxuJykiLCJyYXdkYXRhIjowLCJsciI6IiIsInVzZWNhcHRjaGFraWxs
ZXIiOmZhbHNlLCJtYXhfc2l6ZSI6IjIwNDgwMCJ9fX19
 
А как можно сделать фильтрацию по признакам в RegEx через файл (в файле обычный список признаков, каждый с новой строки), чтобы в ручную не разделять знаком | ?
 
а другие варианты фильтрации с использованием файла есть?
 
может подскажите как сделать фильтрацию менее рутинной. так не охота ~500 признаков прописывать через |
 
погугли SEOTextEd_ru , там есть добавить в конец | и убрать перенос строки получиш строку. Ну или Notepad++ .
Но я не уверен что ты скормиш туда 500 признаков, там вроде ограничение по символам , тогда используй этот фильтр несколько раз/
И вроде ты запутался путаеш признаки и фильтры
 
500 признаков для фильтра не так много, можно заменить почти в любом редакторе(emeditor, notepad++)
\n заменяем на |
далее замены для экранирования метасимволов регулярных выражений:
. на \.
? на \?
 
Назад
Верх