Парсинг GET+https, HELP!

millen860 · 12 Дек 2017

Добрый день, помогите пожалуйста с настройкой парсера.
Необходимо спарсить максимальное кол-во ссылок с https , и имеющих GET параметр (т.е. знак вопроса) в ссылке.

Что сразу идет в голову? Конечное же операторы типа inurl:"https://" inurl:"?"
Но тут сразу несколько минусов:
1. операторы inurl - их очень НЕ любит гугл, нужно много хороших прокси, и все равно будет много бана и много результатов, даже с подстановкой, вытащить будет трудно
2. оператор inurl:"?" - НЕ работает, не фильтрует и не находит знак вопроса в урле как хотелось бы

Что я еще пробовал?
Чтобы нивелировать второй минус - подставлял inurl:".php?" - что тоже НЕ привело к желаемому результату.
Или так - inurl:"content.php?" (где content.php? - это один из возможных вариантов) - но так мы сокращаем область поиска, т.к. всех возможных вариантов я не знаю

И это еще не все, я нашел на форуме вот это - https://a-parser.com/resources/176/
Вроде бы казалось - отличный вариант.
И он мне реально дал много результатов (правда этот пресет без https)
но и у него есть минусы - я использовал базу доменов, и было ОЧЕНЬ много failed queries
я не знаю, каков принцип поиска у HTML::LinkExtractor, я пробовал как с проксями, так и без - но было очень много failed

В общем это вкратце что я пробовал, чтобы спарсить максимальное кол-во ссылок с https , и имеющих GET параметр

Возможно вы сможете мне что-то подсказать, или в виде пресета, или в виде чего-то еще?

з.ы. Пытаюсь настроить 1й вариант (inurl:"https://"), но пока что-то не выходит... Прокси и Cheap-Captcha готовы.

Support · 12 Дек 2017

Добрый день.
Вы собственно озвучили 2 разных метода сбора нужных вам ссылок, которые вполне решают вашу задачу.

Первый - это сбор из поисковой выдачи.
Если речь о Гугле, то логично и правильно использовать inurl и запросы в виде признаков нужных вам урлов (content.php? и т.п.). Плюс макрос подстановок или Parse all results. А чтобы избежать большого кол-ва неудачных, нужны хорошие прокси, побольше попыток и желательно подключенный софт/сервис для разгадывания рекаптч.
Также нужно использовать фильтр и фильтровать выдачу на предмет https:// и ? в урле, чтобы гарантировано на выходе получать только то, что нужно.

Второй - сбор ссылок на конкретном сайте.
Решается с помощью линкэкстрактора и парсинга в глубину. Собираемые ссылки также нужно фильтровать на предмет наличия https:// и ? в урле. Для того, чтобы уменьшить кол-во неудачных, нужно сначала определить их причину. Сделать это можно в логе задания. Например, некоторые сайты могут не пускать со старым юзерагентом (а по дефолту в линкэкстракторе используется юзерагент IE6). Также на сайтах могут быть страницы, которые доступны только после авторизации, а при попытке их открыть, отдавать код ответа 403. В линкэкстракторе по дефолту Good status стоит 200, поэтому при получении другого кода ответа, парсер будет повторять запрос заданное кол-во раз.
Укажите современный юзерагент, включите эмуляцию браузера, задайте список допустимых кодов ответа, включите переадресацию - все это позволит снизить кол-во неудачных. Но полностью избежать их и при этом не потерять в качестве - не получится.

Спарсить все существующие подобные ссылки конечно не получится, но используя эти методы, вы можете получить очень много результатов. Конечное их кол-во зависит в первую очередь от того, сколько вы будете использовать начальных запросов (признаки урлов и подстановки для 1-го метода и база доменов для 2-го), а также от того, как настроите парсинг, следуя написанным выше рекомендациям.

Парсинг GET+https, HELP!

millen860

A-Parser Pro License

Support

Administrator

О нас

Быстрая навигация

Соцсети

Поддержка