Добрый день, помогите пожалуйста с настройкой парсера. Необходимо спарсить максимальное кол-во ссылок с https , и имеющих GET параметр (т.е. знак вопроса) в ссылке. Что сразу идет в голову? Конечное же операторы типа inurl:"https://" inurl:"?" Но тут сразу несколько минусов: 1. операторы inurl - их очень НЕ любит гугл, нужно много хороших прокси, и все равно будет много бана и много результатов, даже с подстановкой, вытащить будет трудно 2. оператор inurl:"?" - НЕ работает, не фильтрует и не находит знак вопроса в урле как хотелось бы Что я еще пробовал? Чтобы нивелировать второй минус - подставлял inurl:".php?" - что тоже НЕ привело к желаемому результату. Или так - inurl:"content.php?" (где content.php? - это один из возможных вариантов) - но так мы сокращаем область поиска, т.к. всех возможных вариантов я не знаю И это еще не все, я нашел на форуме вот это - https://a-parser.com/resources/176/ Вроде бы казалось - отличный вариант. И он мне реально дал много результатов (правда этот пресет без https) но и у него есть минусы - я использовал базу доменов, и было ОЧЕНЬ много failed queries я не знаю, каков принцип поиска у HTML::LinkExtractor, я пробовал как с проксями, так и без - но было очень много failed В общем это вкратце что я пробовал, чтобы спарсить максимальное кол-во ссылок с https , и имеющих GET параметр Возможно вы сможете мне что-то подсказать, или в виде пресета, или в виде чего-то еще? з.ы. Пытаюсь настроить 1й вариант (inurl:"https://"), но пока что-то не выходит... Прокси и Cheap-Captcha готовы.
Добрый день. Вы собственно озвучили 2 разных метода сбора нужных вам ссылок, которые вполне решают вашу задачу. Первый - это сбор из поисковой выдачи. Если речь о Гугле, то логично и правильно использовать inurl и запросы в виде признаков нужных вам урлов (content.php? и т.п.). Плюс макрос подстановок или Parse all results. А чтобы избежать большого кол-ва неудачных, нужны хорошие прокси, побольше попыток и желательно подключенный софт/сервис для разгадывания рекаптч. Также нужно использовать фильтр и фильтровать выдачу на предмет https:// и ? в урле, чтобы гарантировано на выходе получать только то, что нужно. Второй - сбор ссылок на конкретном сайте. Решается с помощью линкэкстрактора и парсинга в глубину. Собираемые ссылки также нужно фильтровать на предмет наличия https:// и ? в урле. Для того, чтобы уменьшить кол-во неудачных, нужно сначала определить их причину. Сделать это можно в логе задания. Например, некоторые сайты могут не пускать со старым юзерагентом (а по дефолту в линкэкстракторе используется юзерагент IE6). Также на сайтах могут быть страницы, которые доступны только после авторизации, а при попытке их открыть, отдавать код ответа 403. В линкэкстракторе по дефолту Good status стоит 200, поэтому при получении другого кода ответа, парсер будет повторять запрос заданное кол-во раз. Укажите современный юзерагент, включите эмуляцию браузера, задайте список допустимых кодов ответа, включите переадресацию - все это позволит снизить кол-во неудачных. Но полностью избежать их и при этом не потерять в качестве - не получится. Спарсить все существующие подобные ссылки конечно не получится, но используя эти методы, вы можете получить очень много результатов. Конечное их кол-во зависит в первую очередь от того, сколько вы будете использовать начальных запросов (признаки урлов и подстановки для 1-го метода и база доменов для 2-го), а также от того, как настроите парсинг, следуя написанным выше рекомендациям.