Парсим базу для XRumer: медленно, но верно

  • Автор темы Автор темы Reset
  • Дата начала Дата начала

Reset

A-Parser Enterprise License
A-Parser Enterprise
На форуме уже есть пресет, который позволяет собрать базу для хрумера, в нем указано что
при этом мы не будем использовать операторы inurl: что значительно увеличит скорость парсинга
и это действительно так, однако этот материал был выпущен достаточно давно и все меняется. И последнее время Гугл вообще нечасто ставит в топ контент с форумов, а если и ставит, то это модерируемые форумы, куда Хрумеру пробиться непросто.

Поэтому я предлагаю пожертвовать скоростью парсинга, но получить больше ресурсов, использовав оператор поиска inurl:

Плюс такого подхода в том, что фактически вся выдача будет форумы и результат будет содержать больше ссылок
Допустим при изначальном подходе было спарсено 100 ссылок, но не все они будут форумы, при моих тестах ссылок было около 15%, то есть 15 ссылок

если же принудительно задать признаки через inurl:, то плотность будет достигать 90%, а значит по итогу будет собрано больше ссылок и больший шанс найти в глубинах выдачи немодерируемые ресурсы, куда может запостить Хрумер

Для этого:
- возьмем признаки из старого пресета, однако воспользуемся модификацей запроса (1) и сделаем чтоб каждый запрос подставлялся с inurl:, а для перебора слов воспользуемся макросом подстановок EACH
- теперь в поле запросов (2) не нужно писать слово forum, так как гугл будет фильтровать все сам. а можно написать свою тематику или если совсем туго с фантазией, то можно использовать ТОР 1000 английских слов, которые идут в комплекте вставив {subs:english_top1000}
- фильтр можно удалить
- в качестве пресета у меня стоит Main, это мой пресет с антикапчей, настройте его под себя как удобно

upload_2024-7-14_19-4-40.png

Можно запускать парсинг и собирать форумы.

eJxtVX9rIzcQ/SpFBK6FjfGmBMpCKY65pFdycRo70JILRt6dXavWSqqktR2Mv3tn
JHnXyfUv74zmx3t6o/GBee427tGCA+9Y8XJgJnyzgv1luxbsrcYfxzJmuHVgKeaF
zT8XxZ3WjQQ8+MqFYtmB+TcDmNYp8W9HfqzTSSz0wjDPoEMKtWGvWYpYxHCvTaXb
UCId3Em94pIV3nZwfH09FXKIpOUE7MLko4SyP5zzLSw0HtZCDs3dLVoPvKVGD3p7
Ob5e5vnl9dVlfj3ye0rnVSW80IrLWJ74DS2fI5eCKY2x+GkFuFurWwIOoQA5307Q
XthFsH8QqrOyOAAv18VWwA5ZinJk1iYjq6Y77S2/tsCrYMbPy2wIcGt9HhAOKuGM
5G/B8Te/uRkZGX/LRmTdahXjXThHFgKhwWr10aRgoSrY08FvoQ+B/DWBcFkwsxba
FcqefkOR+CmF88E0VtOlx/ootVC1HsiFIj3pM8KpfjIGnlkPJXyFtOMwNn9GEVhR
c+kgYw6Fv+XYv/p4IjxY7rWdGRIY/Qem1UTKe9iCHMKCYDedkBXSnNSY9CUl/n/I
7Lsax35ezlttwe4sYuirBOtm9nXIqvS9bk7TJUUrPNpuqjtFYz5G5wbA9EP4QGGt
ttC3SZVTd3zFBlSFkcMDmJjB9Y7Guzl/7yy1qkUzQwJWVHCK7NQCV8VMTXVrJBAv
1UmJsjh4Gh7bxCUZyBgAfkyehhYIq4Ka05bIcBFo6f6YR6jGCnzM1wSwxZs875pK
llzK56f78xNKdDg5M/XZ2g/yhcFgB9etXAGqweFdLzE0H4/HR0bVPDTavhHX42u/
7Pq9eDhfeWiFnYe/z17I5UR5cYcFlv3q3MNWyCDClBtfrvkT+AThZ3Q3uN3Y84T6
2ggbXyXojlKvSHa8U3xVe4STZwz3jOVBuxgrNaJF/aOFC+x3fDVBPLIrrfyCb2AO
zoWgcVy8zuAS5g2iz9ETNnKIhz0eYHfluZwbKXzICN1tD5quKdBBGM5XgNsnDWgd
Nt9p1bMLKjyKzh8/XVDjb9/Up5/C/wc/n2xpz4ay7ld75JkEUNrXmFKFayDwZSyQ
J4DTNZQbsO/GaE13a7twE+FvpWC73W7UBOlGJa5u5Nwa/7bQyDgU/OLSvCDxIOjT
Sbar7yVVtYmRjtd4xG25jiYSJxUxFCczauiiBi7JOFw0jX+kj5vTEwMMqLBDCYGM
2+BsEgVYdc1SaQV73LZuGSm5QaIVVwqqUgJXHQma/5KESgQeucMhHiaJl36JNx0w
H4+4gv5xj3HU6b3SoKMPH34cnfz4Hydi2RM=

Но это еще не все.

У Хрумера есть инструмент, которые позволяет получить признаки пробитых форумов для поиска в гугле.

Для этого выполняем прогон на любой базе и запускаем инструмент "Анализатор признаков ссылок"

Выглядеть это будет примерно вот так

tool9.gif


То есть Хрумер автоматически подготовит признаки тех форумов, которые он уже смог пробить.

Поэтому берем эти признаки, подставляем в макрос подстановок EACH и можно собирать базу теперь уже 100% под Хрумер.

Удачи
 
Назад
Верх