Предлагаю при включении опции Get full links в парсере SE::Baidu успехом считать код ответа 302 и из заголовка выдергивать Location.
Проблема в том, что сейчас при попытках получить реальную ссылку в 99% получаем 598 Timeout by timer. Судя по всему это происходит из-за того, что Net::HTTP пытается перейти по редиректу...
При этом нужная нам информации находится в location
Проблема в том, что сейчас при попытках получить реальную ссылку в 99% получаем 598 Timeout by timer. Судя по всему это происходит из-за того, что Net::HTTP пытается перейти по редиректу...
15/08 12:21:25 Parser SE::Baidu::0 parse query "RADO" "手表" "我的购物车"
15/08 12:21:25 Use proxy http://51.255.55.144:29955
15/08 12:21:25 Parse page 1
15/08 12:21:48 GET(1): http://www.baidu.com/s?wd="RADO" "手表" "我的购物车"&pn=0&rn=50&ie=utf-8 - 200 OK (99.2 KB)
15/08 12:21:48 Total found 48 results
15/08 12:21:48 Getting full links
15/08 12:21:48 Link 1 of 48
15/08 12:22:03 GET(1): http://www.baidu.com/link?url=Hfx-F...rUPsCKsfsCymyB2a174_rrEA68RzvS8Rt3rpQ4rRBVnW_ - 598 Timeout by timer (0 KB)
15/08 12:22:03 Invalid code
15/08 12:22:03 Use proxy http://51.255.55.144:26495
15/08 12:22:23 GET(2): http://www.baidu.com/link?url=Hfx-F...rUPsCKsfsCymyB2a174_rrEA68RzvS8Rt3rpQ4rRBVnW_ - 598 Timeout by timer (0 KB)
15/08 12:22:23 Invalid code
15/08 12:22:23 Use proxy http://51.255.55.144:21627
15/08 12:23:00 GET(3): http://www.baidu.com/link?url=Hfx-F...rUPsCKsfsCymyB2a174_rrEA68RzvS8Rt3rpQ4rRBVnW_ - 598 Timeout by timer (0 KB)
15/08 12:23:00 Invalid code
15/08 12:23:00 Use proxy http://51.255.55.144:23566
15/08 12:21:25 Use proxy http://51.255.55.144:29955
15/08 12:21:25 Parse page 1
15/08 12:21:48 GET(1): http://www.baidu.com/s?wd="RADO" "手表" "我的购物车"&pn=0&rn=50&ie=utf-8 - 200 OK (99.2 KB)
15/08 12:21:48 Total found 48 results
15/08 12:21:48 Getting full links
15/08 12:21:48 Link 1 of 48
15/08 12:22:03 GET(1): http://www.baidu.com/link?url=Hfx-F...rUPsCKsfsCymyB2a174_rrEA68RzvS8Rt3rpQ4rRBVnW_ - 598 Timeout by timer (0 KB)
15/08 12:22:03 Invalid code
15/08 12:22:03 Use proxy http://51.255.55.144:26495
15/08 12:22:23 GET(2): http://www.baidu.com/link?url=Hfx-F...rUPsCKsfsCymyB2a174_rrEA68RzvS8Rt3rpQ4rRBVnW_ - 598 Timeout by timer (0 KB)
15/08 12:22:23 Invalid code
15/08 12:22:23 Use proxy http://51.255.55.144:21627
15/08 12:23:00 GET(3): http://www.baidu.com/link?url=Hfx-F...rUPsCKsfsCymyB2a174_rrEA68RzvS8Rt3rpQ4rRBVnW_ - 598 Timeout by timer (0 KB)
15/08 12:23:00 Invalid code
15/08 12:23:00 Use proxy http://51.255.55.144:23566
При этом нужная нам информации находится в location
15/08 12:55:31 Parser Net::HTTP::0 parse query http://www.baidu.com/link?url=Hfx-F...rUPsCKsfsCymyB2a174_rrEA68RzvS8Rt3rpQ4rRBVnW_
15/08 12:55:31 Use proxy http://51.255.55.144:25617
15/08 12:55:48 GET(1): http://www.baidu.com/link?url=Hfx-F...rUPsCKsfsCymyB2a174_rrEA68RzvS8Rt3rpQ4rRBVnW_ - 302 Moved Temporarily (0 KB)
15/08 12:55:48 Decode from utf8(header content-type)
15/08 12:55:48 Parse response: 1
15/08 12:55:48 Thread complete work
15/08 12:55:58 302 Moved Temporarily
connection: Keep-Alive
set-cookie: BDSVRTM=0; path=/
cache-control: no-cache, must-revalidate
date: Thu, 15 Aug 2019 07:55:33 GMT
bdpagetype: 3
pragma: no-cache
content-type: text/html;charset=utf8
x-xss-protection: 1;mode=block
server: BWS/1.1
location: https://www.jd.com/pinpai/13673-11254.html
content-length: 215
x-ua-compatible: IE=Edge,chrome=1
expires: Fri, 01 Jan 1990 00:00:00 GMT
15/08 12:55:31 Use proxy http://51.255.55.144:25617
15/08 12:55:48 GET(1): http://www.baidu.com/link?url=Hfx-F...rUPsCKsfsCymyB2a174_rrEA68RzvS8Rt3rpQ4rRBVnW_ - 302 Moved Temporarily (0 KB)
15/08 12:55:48 Decode from utf8(header content-type)
15/08 12:55:48 Parse response: 1
15/08 12:55:48 Thread complete work
15/08 12:55:58 302 Moved Temporarily
connection: Keep-Alive
set-cookie: BDSVRTM=0; path=/
cache-control: no-cache, must-revalidate
date: Thu, 15 Aug 2019 07:55:33 GMT
bdpagetype: 3
pragma: no-cache
content-type: text/html;charset=utf8
x-xss-protection: 1;mode=block
server: BWS/1.1
location: https://www.jd.com/pinpai/13673-11254.html
content-length: 215
x-ua-compatible: IE=Edge,chrome=1
expires: Fri, 01 Jan 1990 00:00:00 GMT