Здравствуйте, у меня получилось спарсить базу казино-ссылок с гугла. Теперь задача стоит в том как из этих ссылок достать блоги, тоесть как проверить эту базу на наличие казино-блогов? Если есть идеи буду очень благодарен.
Сейчас занимаюсь парсингом блогов из 700к ссылок. Есть ли примеры пресетов для того чтобы выявить из 700к ссылок только блоги?
Как вариант, нужно подготовить список признаков блогов в контенте страницы и проверить каждую ссылку на их наличие (это можно сделать с помощью Net::HTTP и фильтров). Также, возможно полезным будет вариант фильтрации по CMS с помощью Rank::CMS.