Парсинг сниппетов

Strannic · 22 Ноя 2013

Несколько вопросов.
- Смогу ли я парсить сниппеты гугла
и сразу сохранять их в таблицу в формате
"title_snippet","url_snippet","description_snippet" ?

Как это можно сделать? Пробовал регексом, не получается выбрать description нормально.

Forbidden · 22 Ноя 2013

Не совсем понятно что в данном случае имеется ввиду под title / url и description

Парсер SE::Google парсит ссылку на результат - {link}, анкор этой ссылки - {anchor}, и сниппет - {snippet}

Strannic · 24 Ноя 2013

Спасибо с этим разобрался.
Осталось несколько вопросов.
- не нашел инфы на форуме про применение регексов
с этими Replace параметрами. Что они означают? Или это стандартные параметры регекса? я хз )
Необходимо очистить сниппеты от мусора в виде иероглифов, разных символов и прочих.
Нашел вот такую регулярку
^.*[^а-я0-9ёА-ЯЁa-zA-Zії \:\;\-\—\.\,\"\'\…\!\?\&\%\$\@\^\=\+\№\r\n].*$

Как ее можно применить для пресета ?

- как парсить больше 1000 результатов у гугла по одному запросу?

Forbidden · 24 Ноя 2013

Эту регулярку надо использовать так:
[^а-я0-9ёА-ЯЁa-zA-Zії \:\;\-\—\.\,\"\'\…\!\?\&\%\$\@\^\=\+\№\r\n]+

Флаги - стандартные флаги регулярных выражений, тут нужен g - глобальный поиск

Strannic сказал(а):
- как парсить больше 1000 результатов у гугла по одному запросу?

Опцией Parse all results например, она временно не работает из за этой задачи http://a-parser.com/threads/881/
Так же можно вручную указать подстановки через Query format

Malchishka · 17 Мар 2014

Как теперь парсить сниппеты после введения нового шаблона, что-то я уже по разному пробую, но у меня получается пустой файл. Дайти плиз скрин правильных настроек.

Forbidden · 17 Мар 2014

на текущей версии точно так же как и раньше, покажи свои настройки

Malchishka · 17 Мар 2014

Всё работает, я просто пытался скрестить то что было и то что писалось в этой статье http://a-parser.com/threads/1006/

Forbidden · 17 Мар 2014

Подожди следующей версии где будет уже полная поддержка

Malchishka · 17 Мар 2014

А как сделать так, что бы результат по каждому кею выводился в отдельном файле и этот файл имел название кея, по которому парсились сниппеты?

Forbidden · 17 Мар 2014

В Result file name указать {query}.txt

Malchishka · 18 Мар 2014

А можно как-то на автомате отправлять "неудачные запросы" на второй/третий круг парсинга?

Forbidden · 18 Мар 2014

никак, за неудачные запросы отвечает параметр Request retries

Парсинг сниппетов

Strannic

A-Parser Enterprise License

Forbidden

Administrator

Strannic

A-Parser Enterprise License

Forbidden

Administrator

Malchishka

A-Parser Pro License

Forbidden

Administrator

Malchishka

A-Parser Pro License

Forbidden

Administrator

Malchishka

A-Parser Pro License

Forbidden

Administrator

Malchishka

A-Parser Pro License

Forbidden

Administrator

О нас

Быстрая навигация

Соцсети

Поддержка