1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Улучшение Модификация алгоритма парсинга Rank::Archive

Тема в разделе "Отклоненные задачи", создана пользователем Leo Golan, 4 мар 2026.

  1. Leo Golan

    Leo Golan A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    14 фев 2022
    Сообщения:
    3
    Симпатии:
    0
    Проблема:
    При использовании парсера Rank::Archive идут GET запросы http://web.archive.org/__wb/sparkline?url=domen.com&output=json

    и часто подряд возникают ошибки:
    597 Read first line error: EOF (0 KB)
    Invalid code

    При этом:
    Прокси не заблокированы
    Через браузер доступ с этих прокси к https://web.archive.org работает корректно
    Ошибка возникает именно при прямых GET запросах

    Предполагаемая причина:
    Антибот-фильтрация / отсутствие cookies

    Прошу модифицировать алгоритм парсинга Rank::Archive
    Использовать предварительную браузерную инициализацию сессии в каждом потоке.
    Новый алгоритм работы потока
    Для каждого прокси в каждом потоке:

    ЭТАП 1. Инициализация сессии
    Запустить headless-браузер.
    Подключиться через прокси.
    Перейти на:
    https://web.archive.org
    Дождаться полной загрузки страницы.
    Имитировать ввод домена в поисковую строку.
    Дождаться загрузки результатов.
    Сохранить:
    Cookies
    User-Agent
    Дополнительные заголовки

    ЭТАП 2. GET запросы (основной сбор данных)
    Выполнять GET-запросы:
    https://web.archive.org/__wb/sparkline?output=json&url=domen.com&collection=web

    С обязательной передачей:
    Cookies
    User-Agent
    Accept headers
    Referer: https://web.archive.org

    ЭТАП 3. Контроль валидности ответа
    Если ответ:
    пустой
    0 KB
    HTTP != 200
    JSON пустой или содержит ошибку

    Тогда:
    Считаем сессию "протухшей"
    Повторяем ЭТАП 1 (инициализация браузером)

    Цель: Устранить ошибки 597 Read first line error / EOF при работе через прокси и увеличить скорость парсинга.
     
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.851
    Симпатии:
    2.244
    Такие ошибки чаще всего указывают на проблему с прокси, реже - на проблемы с сетевым соединением.
    Проблем в работе данного парсера нету и необходимости использовать браузер для его работы также нету.
    upload_2026-3-5_9-34-14.png
     
  3. Leo Golan

    Leo Golan A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    14 фев 2022
    Сообщения:
    3
    Симпатии:
    0
    Если для теста с 1 прокси парсить до момента возникновения этих ошибок и сразу как ошибки идут зайти с браузера с тем же прокси на web.archive.org и сделать запрос по любому домену, то запрос выполняется без ошибок.
    С прокси всё хорошо.
     

Поделиться этой страницей