Парсинг и чистка сниппетов

Антон

A-Parser Enterprise License
A-Parser Enterprise
Нужно напарсить сниппетов (с гугла и яндекса) и очистить их от html. В результате получить "один сниппет - одна строка". Желательно тут же спарсить и сниппеты с рекламных объявлений. Как настроить такое задание?
 
h4xq4.png
 
нету живых прокси, "Ожидающих потоков: 20" означает что все потоки ждут прокси
 
Тоже сделал как на скрине..парсит с тегами и с УРЛ
 
Кстати, подтверждаю. Куча " —", ".nbsp;..." и урлы попадаются в самых разных формах.
 
&..; это не теги, это html сущности, для них надо использовать Decode HTML Entities
о каких разных формах урлов речь?
 
урлы попадаются в самых разных формах.

по твоему скрину ты парсишь только сниппеты, если там попадаются урлы то это значит что это часть сниппета, и то как он выводиться целиком и полностью зависит от Яндекса
 
Ну да. Я было подумал, что они чистятся. Но, в общем-то, с чего бы.
 
этот результат не от того задания которое на скрине, т.к. в результате выведен титл - урл - сниппет, а не просто сниппет, и очевидно хтмл теги встречаются только в титле
 
конечно не от того..что на скрине. я же просто так вообще зашел в эту ветку .
То..что имя файла результата отличается от того, что в настрйоках объясняется тем, что парсинг я запустил утром..а скрин сделал с тех же настроек вечером. имя файла только другое сохранено в профиле. Такая же херь парсится из быстрого задания. .точно такой же результат в файле.
 
конечно не от того..что на скрине. я же просто так вообще зашел в эту ветку .
То..что имя файла результата отличается от того, что в настрйоках объясняется тем, что парсинг я запустил утром..а скрин сделал с тех же настроек вечером. имя файла только другое сохранено в профиле. Такая же херь парсится из быстрого задания. .точно такой же результат в файле.

причем тут имя файла? я вижу явное не соответствие задания и его результата :) в задании ты выводишь только сниппеты, а результат смотришь совсем от другого задания, в котором в результат выводиться титл - урл - сниппет, сниппет очищен от тегов, а титл как раз нет
 
Назад
Верх