Добрый день, помогите пожалуйста с настройкой парсера.
Необходимо спарсить максимальное кол-во ссылок с https , и имеющих GET параметр (т.е. знак вопроса) в ссылке.
Что сразу идет в голову? Конечное же операторы типа inurl:"https://" inurl:"?"
Но тут сразу несколько минусов:
1. операторы inurl - их очень НЕ любит гугл, нужно много хороших прокси, и все равно будет много бана и много результатов, даже с подстановкой, вытащить будет трудно
2. оператор inurl:"?" - НЕ работает, не фильтрует и не находит знак вопроса в урле как хотелось бы
Что я еще пробовал?
Чтобы нивелировать второй минус - подставлял inurl:".php?" - что тоже НЕ привело к желаемому результату.
Или так - inurl:"content.php?" (где content.php? - это один из возможных вариантов) - но так мы сокращаем область поиска, т.к. всех возможных вариантов я не знаю
И это еще не все, я нашел на форуме вот это - https://a-parser.com/resources/176/
Вроде бы казалось - отличный вариант.
И он мне реально дал много результатов (правда этот пресет без https)
но и у него есть минусы - я использовал базу доменов, и было ОЧЕНЬ много failed queries
я не знаю, каков принцип поиска у HTML::LinkExtractor, я пробовал как с проксями, так и без - но было очень много failed
В общем это вкратце что я пробовал, чтобы спарсить максимальное кол-во ссылок с https , и имеющих GET параметр
Возможно вы сможете мне что-то подсказать, или в виде пресета, или в виде чего-то еще?
з.ы. Пытаюсь настроить 1й вариант (inurl:"https://"), но пока что-то не выходит... Прокси и Cheap-Captcha готовы.
Необходимо спарсить максимальное кол-во ссылок с https , и имеющих GET параметр (т.е. знак вопроса) в ссылке.
Что сразу идет в голову? Конечное же операторы типа inurl:"https://" inurl:"?"
Но тут сразу несколько минусов:
1. операторы inurl - их очень НЕ любит гугл, нужно много хороших прокси, и все равно будет много бана и много результатов, даже с подстановкой, вытащить будет трудно
2. оператор inurl:"?" - НЕ работает, не фильтрует и не находит знак вопроса в урле как хотелось бы
Что я еще пробовал?
Чтобы нивелировать второй минус - подставлял inurl:".php?" - что тоже НЕ привело к желаемому результату.
Или так - inurl:"content.php?" (где content.php? - это один из возможных вариантов) - но так мы сокращаем область поиска, т.к. всех возможных вариантов я не знаю
И это еще не все, я нашел на форуме вот это - https://a-parser.com/resources/176/
Вроде бы казалось - отличный вариант.
И он мне реально дал много результатов (правда этот пресет без https)
но и у него есть минусы - я использовал базу доменов, и было ОЧЕНЬ много failed queries
я не знаю, каков принцип поиска у HTML::LinkExtractor, я пробовал как с проксями, так и без - но было очень много failed
В общем это вкратце что я пробовал, чтобы спарсить максимальное кол-во ссылок с https , и имеющих GET параметр
Возможно вы сможете мне что-то подсказать, или в виде пресета, или в виде чего-то еще?
з.ы. Пытаюсь настроить 1й вариант (inurl:"https://"), но пока что-то не выходит... Прокси и Cheap-Captcha готовы.