Нужна помощь в парсинге казино-блогов

  • Автор темы Автор темы Maxvell
  • Дата начала Дата начала

Maxvell

New Member
Как правильно настроить парсер на парсинг англоязычных казино-блогов через Google?
 

Вложения

  • photo_2022-01-11_15-48-32.jpg
    photo_2022-01-11_15-48-32.jpg
    57,3 КБ · Просмотры: 22
Здравствуйте, у меня получилось спарсить базу казино-ссылок с гугла.
Теперь задача стоит в том как из этих ссылок достать блоги, тоесть как проверить эту базу на наличие казино-блогов?
Если есть идеи буду очень благодарен.
 
Последнее редактирование:
Сейчас занимаюсь парсингом блогов из 700к ссылок.

Есть ли примеры пресетов для того чтобы выявить из 700к ссылок только блоги?
 
Как вариант, нужно подготовить список признаков блогов в контенте страницы и проверить каждую ссылку на их наличие (это можно сделать с помощью Net::HTTP Net::HTTP и фильтров).
Также, возможно полезным будет вариант фильтрации по CMS с помощью Rank::CMS Rank::CMS.
 
Как вариант, нужно подготовить список признаков блогов в контенте страницы и проверить каждую ссылку на их наличие (это можно сделать с помощью Net::HTTP Net::HTTP и фильтров).
Также, возможно полезным будет вариант фильтрации по CMS с помощью Rank::CMS Rank::CMS.
Спасибо за помощь сейчас займусь!
 
Назад
Верх