1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парсинг GET+https, HELP!

Тема в разделе "Делимся опытом", создана пользователем millen860, 12 дек 2017.

  1. millen860

    millen860 A-Parser Pro License
    A-Parser Pro

    Регистрация:
    22 июл 2017
    Сообщения:
    3
    Симпатии:
    0
    Добрый день, помогите пожалуйста с настройкой парсера.
    Необходимо спарсить максимальное кол-во ссылок с https , и имеющих GET параметр (т.е. знак вопроса) в ссылке.

    Что сразу идет в голову? Конечное же операторы типа inurl:"https://" inurl:"?"
    Но тут сразу несколько минусов:
    1. операторы inurl - их очень НЕ любит гугл, нужно много хороших прокси, и все равно будет много бана и много результатов, даже с подстановкой, вытащить будет трудно
    2. оператор inurl:"?" - НЕ работает, не фильтрует и не находит знак вопроса в урле как хотелось бы

    Что я еще пробовал?
    Чтобы нивелировать второй минус - подставлял inurl:".php?" - что тоже НЕ привело к желаемому результату.
    Или так - inurl:"content.php?" (где content.php? - это один из возможных вариантов) - но так мы сокращаем область поиска, т.к. всех возможных вариантов я не знаю

    И это еще не все, я нашел на форуме вот это - https://a-parser.com/resources/176/
    Вроде бы казалось - отличный вариант.
    И он мне реально дал много результатов (правда этот пресет без https)
    но и у него есть минусы - я использовал базу доменов, и было ОЧЕНЬ много failed queries
    я не знаю, каков принцип поиска у HTML::LinkExtractor, я пробовал как с проксями, так и без - но было очень много failed

    В общем это вкратце что я пробовал, чтобы спарсить максимальное кол-во ссылок с https , и имеющих GET параметр

    Возможно вы сможете мне что-то подсказать, или в виде пресета, или в виде чего-то еще?


    з.ы. Пытаюсь настроить 1й вариант (inurl:"https://"), но пока что-то не выходит... Прокси и Cheap-Captcha готовы.
     
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.588
    Симпатии:
    2.174
    Добрый день.
    Вы собственно озвучили 2 разных метода сбора нужных вам ссылок, которые вполне решают вашу задачу.

    Первый - это сбор из поисковой выдачи.
    Если речь о Гугле, то логично и правильно использовать inurl и запросы в виде признаков нужных вам урлов (content.php? и т.п.). Плюс макрос подстановок или Parse all results. А чтобы избежать большого кол-ва неудачных, нужны хорошие прокси, побольше попыток и желательно подключенный софт/сервис для разгадывания рекаптч.
    Также нужно использовать фильтр и фильтровать выдачу на предмет https:// и ? в урле, чтобы гарантировано на выходе получать только то, что нужно.

    Второй - сбор ссылок на конкретном сайте.
    Решается с помощью линкэкстрактора и парсинга в глубину. Собираемые ссылки также нужно фильтровать на предмет наличия https:// и ? в урле. Для того, чтобы уменьшить кол-во неудачных, нужно сначала определить их причину. Сделать это можно в логе задания. Например, некоторые сайты могут не пускать со старым юзерагентом (а по дефолту в линкэкстракторе используется юзерагент IE6). Также на сайтах могут быть страницы, которые доступны только после авторизации, а при попытке их открыть, отдавать код ответа 403. В линкэкстракторе по дефолту Good status стоит 200, поэтому при получении другого кода ответа, парсер будет повторять запрос заданное кол-во раз.
    Укажите современный юзерагент, включите эмуляцию браузера, задайте список допустимых кодов ответа, включите переадресацию - все это позволит снизить кол-во неудачных. Но полностью избежать их и при этом не потерять в качестве - не получится.

    Спарсить все существующие подобные ссылки конечно не получится, но используя эти методы, вы можете получить очень много результатов. Конечное их кол-во зависит в первую очередь от того, сколько вы будете использовать начальных запросов (признаки урлов и подстановки для 1-го метода и база доменов для 2-го), а также от того, как настроите парсинг, следуя написанным выше рекомендациям.
     

Поделиться этой страницей