Добрый день! Подскажите пожалуйста, можете ли Aparser производить поиск и/или парсинг только сайтов на определенных cms, например WP Joomla? RankCMS, как я понял, только со списком доменов работает...
Rank::CMS проверяет имеющуюся базу сайтов на вид CMS чтобы парсить определенный движки необходимо сотавить корректные запросы(признаки) для парсера SE::Google или любого другого SE парсера
Это более чем логично. Но при таком подходе много мусора и идет значительный пропуск ресурсов. Вы не планируете добавить поддержку цепочек парсинга?
Все признаки задаются в файле files/Rank-CMS/engines.txt, описание формата этого файла в самом начале самого файла
Это я увидел, а в самом парсере как задание должно выглядеть, чтобы в окончательный результат попадали только домены на которых стоят движки JM и WP?
Ответ во втором сообщении в этом топике, необходимо анализировать необходимый движок и составлять верные поисковые запросы Самый простой вариант поиск по уникальной части ссылки, характерной для какого либо движка, например для вордпресса: inurl:wp-login.php Этот вариант так же самый медленный - такие запросы очень сильно банятся со стороны гугла Можно также искать по вхожению фразы, которая повторяется на всех сайтах: "Powered by wordpress" Некоторые из таких запросов так же сильно баняться как и inurl