Подскажите, как парсить гугл или яндекс по типу хрефера. Т. е. есть 2 тхт файла. 1 - файл с признаками форумов, 2 - файл с кейвордами Нужно напарсить базу ТОЛЬКО форумов. Если можно, то скиньте скриншот
Файл с запросами закидываем в папку queries/ Файл с кейвордами(например keywords.txt) закидываем в папку queries/subs/ Меняем формат запроса, указываем откуда брать дополнительные запросы(информация по всем макросам доступна при наведении курсора на данное поле) Дополнительно делаем уникализацию спаршенных ссылок по домену и фильтрацию по признакам форумов Спойлер: Код пресета Код: eyJwcmVzZXQiOiJGb3J1bXMgUGFyc2VyIiwidmFsdWUiOnsicGFyc2VycyI6W1si U0U6Okdvb2dsZSIsIjEwMDAgTGlua3MgdXNlIFByb3h5Iix7InR5cGUiOiJ1bmlx dWUiLCJyZXN1bHQiOlsic2VycCIsImxpbmsiXSwidW5pcXVlVHlwZSI6ImRvbWFp biIsInVuaXF1ZUdsb2JhbCI6dHJ1ZX0seyJ0eXBlIjoiZmlsdGVyIiwicmVzdWx0 IjpbInNlcnAiLCJsaW5rIl0sImZpbHRlclR5cGUiOiJyZW1hdGNoIiwidmFsdWUi OiJ2aWV3dG9waWNcXC5waHB8dmlld2ZvcnVtXFwucGhwfHZpZXd0aHJlYWRcXC5w aHB8dGhyZWFkLXxmb3J1bVxcLnBocHxzaG93dGhyZWFkXFwucGhwfGZvcnVtZGlz cGxheVxcLnBocHxZYUJCXFwucGx8WWFCQlxcLmNnaXx1YmJ0aHJlYWRzXFwucGhw fHVsdGltYXRlYmJcXC5waHB8dWx0aW1hdGViYlxcLmNnaXxpbmRleFxcLnBocFxc P3Nob3d0b3BpYz18dGhyZWFkc3x0b3BpY3xtZW1iZXJzfG1lbWJlclxcLnBocHxt ZW1iZXJsaXN0XFwucGhwfHByb2ZpbGVcXC5waHB8dXNlcmluZm9cXC5waHB8dmll d3RvcGljfHZpZXdmb3J1bXx2aWV3dGhyZWFkfHRvcGljfHRocmVhZHxzaG93dGhy ZWFkfHNob3d0b3BpY3xzaG93Zm9ydW0iLCJvcHRpb24iOiIifV1dLCJyZXN1bHRz Rm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVz dWx0c0ZpbGVOYW1lIjoiJGRhdGVmaWxlLmZvcm1hdCgpLnR4dCIsImFkZGl0aW9u YWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6Im5vIiwicXVlcnlGb3JtYXQi OlsiJHF1ZXJ5IHtzdWJzOmtleXdvcmRzfSJdLCJ1bmlxdWVRdWVyaWVzIjpmYWxz ZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsi b25BbGxMZXZlbHMiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJO byIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIiLCJyZXN1 bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJlc3VsdHNCdWlsZGVy cyI6W10sImNvbmZpZ092ZXJyaWRlcyI6W119LCJwYXJzZXJzQ29uZlByZXNldHMi OnsiU0U6Okdvb2dsZSI6eyIxMDAwIExpbmtzIHVzZSBQcm94eSI6eyJxdWVyeWZv cm1hdCI6IiRxdWVyeSIsInBhcnNlbm90Zm91bmQiOnRydWUsImdsIjoiIiwicGFn ZWNvdW50IjoiMTAiLCJkb19nemlwIjpmYWxzZSwiZG9tYWluIjoid3d3Lmdvb2ds ZS5jb20iLCJ0aW1lb3V0IjoiNjAiLCJ1c2Vwcm94eSI6dHJ1ZSwiYW50aWdhdGVw cmVzZXQiOiJkZWZhdWx0IiwiZXh0cmFxdWVyeSI6IiIsImxvY2F0aW9uIjoiIiwi dXNlc2Vzc2lvbnMiOnRydWUsInNlcnB0aW1lIjoiIiwibGlua3NwZXJwYWdlIjoi MTAwIiwiZmlsdGVyIjp0cnVlLCJzZXJwIjoiIiwidXNlYW50aWdhdGUiOmZhbHNl LCJwcm94eXJldHJpZXMiOiIxNSIsInJlcXVlc3RkZWxheSI6IjAiLCJwcm94eWJh bm5lZGNsZWFudXAiOiI2MDAiLCJmb3JtYXRyZXN1bHQiOiIkc2VycC5mb3JtYXQo JyRsaW5rXFxuJykiLCJyYXdkYXRhIjowLCJsciI6IiIsInVzZWNhcHRjaGFraWxs ZXIiOmZhbHNlLCJtYXhfc2l6ZSI6IjIwNDgwMCJ9fX19
А как можно сделать фильтрацию по признакам в RegEx через файл (в файле обычный список признаков, каждый с новой строки), чтобы в ручную не разделять знаком | ?
может подскажите как сделать фильтрацию менее рутинной. так не охота ~500 признаков прописывать через |
погугли SEOTextEd_ru , там есть добавить в конец | и убрать перенос строки получиш строку. Ну или Notepad++ . Но я не уверен что ты скормиш туда 500 признаков, там вроде ограничение по символам , тогда используй этот фильтр несколько раз/ И вроде ты запутался путаеш признаки и фильтры
500 признаков для фильтра не так много, можно заменить почти в любом редакторе(emeditor, notepad++) \n заменяем на | далее замены для экранирования метасимволов регулярных выражений: . на \. ? на \?