1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Улучшение [1.2.564] SE::Baidu Get full links - изменение логики

Тема в разделе "1.2.570", создана пользователем 22b_ural, 15 авг 2019.

Метки:
  1. 22b_ural

    22b_ural A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    8 май 2019
    Сообщения:
    24
    Симпатии:
    2
    Предлагаю при включении опции Get full links в парсере SE::Baidu успехом считать код ответа 302 и из заголовка выдергивать Location.

    Проблема в том, что сейчас при попытках получить реальную ссылку в 99% получаем 598 Timeout by timer. Судя по всему это происходит из-за того, что Net::HTTP пытается перейти по редиректу...
    15/08 12:21:25 Parser SE::Baidu::0 parse query "RADO" "手表" "我的购物车"
    15/08 12:21:25 Use proxy http://51.255.55.144:29955
    15/08 12:21:25 Parse page 1
    15/08 12:21:48 GET(1): http://www.baidu.com/s?wd="RADO" "手表" "我的购物车"&pn=0&rn=50&ie=utf-8 - 200 OK (99.2 KB)
    15/08 12:21:48 Total found 48 results
    15/08 12:21:48 Getting full links
    15/08 12:21:48 Link 1 of 48
    15/08 12:22:03 GET(1): http://www.baidu.com/link?url=Hfx-F...rUPsCKsfsCymyB2a174_rrEA68RzvS8Rt3rpQ4rRBVnW_ - 598 Timeout by timer (0 KB)
    15/08 12:22:03 Invalid code
    15/08 12:22:03 Use proxy http://51.255.55.144:26495
    15/08 12:22:23 GET(2): http://www.baidu.com/link?url=Hfx-F...rUPsCKsfsCymyB2a174_rrEA68RzvS8Rt3rpQ4rRBVnW_ - 598 Timeout by timer (0 KB)
    15/08 12:22:23 Invalid code
    15/08 12:22:23 Use proxy http://51.255.55.144:21627
    15/08 12:23:00 GET(3): http://www.baidu.com/link?url=Hfx-F...rUPsCKsfsCymyB2a174_rrEA68RzvS8Rt3rpQ4rRBVnW_ - 598 Timeout by timer (0 KB)
    15/08 12:23:00 Invalid code
    15/08 12:23:00 Use proxy http://51.255.55.144:23566

    При этом нужная нам информации находится в location
    15/08 12:55:31 Parser Net::HTTP::0 parse query http://www.baidu.com/link?url=Hfx-F...rUPsCKsfsCymyB2a174_rrEA68RzvS8Rt3rpQ4rRBVnW_
    15/08 12:55:31 Use proxy http://51.255.55.144:25617
    15/08 12:55:48 GET(1): http://www.baidu.com/link?url=Hfx-F...rUPsCKsfsCymyB2a174_rrEA68RzvS8Rt3rpQ4rRBVnW_ - 302 Moved Temporarily (0 KB)
    15/08 12:55:48 Decode from utf8(header content-type)
    15/08 12:55:48 Parse response: 1
    15/08 12:55:48 Thread complete work
    15/08 12:55:58 302 Moved Temporarily
    connection: Keep-Alive
    set-cookie: BDSVRTM=0; path=/
    cache-control: no-cache, must-revalidate
    date: Thu, 15 Aug 2019 07:55:33 GMT
    bdpagetype: 3
    pragma: no-cache
    content-type: text/html;charset=utf8
    x-xss-protection: 1;mode=block
    server: BWS/1.1
    location: https://www.jd.com/pinpai/13673-11254.html
    content-length: 215
    x-ua-compatible: IE=Edge,chrome=1
    expires: Fri, 01 Jan 1990 00:00:00 GMT
     
    Support нравится это.
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.377
    Симпатии:
    2.107
    Теперь ссылка забирается из location при 302/301 кодах ответа
     

Поделиться этой страницей