Парсинг сниппетов

Strannic

A-Parser Enterprise License
A-Parser Enterprise
Несколько вопросов.
- Смогу ли я парсить сниппеты гугла
и сразу сохранять их в таблицу в формате
"title_snippet","url_snippet","description_snippet" ?

Как это можно сделать? Пробовал регексом, не получается выбрать description нормально.
 
Не совсем понятно что в данном случае имеется ввиду под title / url и description

Парсер SE::Google парсит ссылку на результат - {link}, анкор этой ссылки - {anchor}, и сниппет - {snippet}
 
Спасибо с этим разобрался.
Осталось несколько вопросов.
- не нашел инфы на форуме про применение регексов
с этими Replace параметрами. Что они означают? Или это стандартные параметры регекса? я хз )
Необходимо очистить сниппеты от мусора в виде иероглифов, разных символов и прочих.
Нашел вот такую регулярку
^.*[^а-я0-9ёА-ЯЁa-zA-Zії \:\;\-\—\.\,\(\)\"\'\…\!\?\&\%\$\@\^\=\+\№\r\n].*$

Как ее можно применить для пресета ?

U1SlKu8.png


- как парсить больше 1000 результатов у гугла по одному запросу?
 
Эту регулярку надо использовать так:
[^а-я0-9ёА-ЯЁa-zA-Zії \:\;\-\—\.\,\(\)\"\'\…\!\?\&\%\$\@\^\=\+\№\r\n]+

Флаги - стандартные флаги регулярных выражений, тут нужен g - глобальный поиск

- как парсить больше 1000 результатов у гугла по одному запросу?
Опцией Parse all results например, она временно не работает из за этой задачи http://a-parser.com/threads/881/
Так же можно вручную указать подстановки через Query format
 
Как теперь парсить сниппеты после введения нового шаблона, что-то я уже по разному пробую, но у меня получается пустой файл. Дайти плиз скрин правильных настроек.
 
на текущей версии точно так же как и раньше, покажи свои настройки
 
Подожди следующей версии где будет уже полная поддержка
 
А как сделать так, что бы результат по каждому кею выводился в отдельном файле и этот файл имел название кея, по которому парсились сниппеты?
 
А можно как-то на автомате отправлять "неудачные запросы" на второй/третий круг парсинга?
 
никак, за неудачные запросы отвечает параметр Request retries
 
Назад
Верх