1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парсинг сниппетов

Тема в разделе "Техническая поддержка", создана пользователем Strannic, 22 ноя 2013.

  1. Strannic

    Strannic A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    26 сен 2013
    Сообщения:
    22
    Симпатии:
    4
    Несколько вопросов.
    - Смогу ли я парсить сниппеты гугла
    и сразу сохранять их в таблицу в формате
    "title_snippet","url_snippet","description_snippet" ?

    Как это можно сделать? Пробовал регексом, не получается выбрать description нормально.
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    Не совсем понятно что в данном случае имеется ввиду под title / url и description

    Парсер SE::Google парсит ссылку на результат - {link}, анкор этой ссылки - {anchor}, и сниппет - {snippet}
     
  3. Strannic

    Strannic A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    26 сен 2013
    Сообщения:
    22
    Симпатии:
    4
    Спасибо с этим разобрался.
    Осталось несколько вопросов.
    - не нашел инфы на форуме про применение регексов
    с этими Replace параметрами. Что они означают? Или это стандартные параметры регекса? я хз )
    Необходимо очистить сниппеты от мусора в виде иероглифов, разных символов и прочих.
    Нашел вот такую регулярку
    ^.*[^а-я0-9ёА-ЯЁa-zA-Zії \:\;\-\—\.\,\(\)\"\'\…\!\?\&\%\$\@\^\=\+\№\r\n].*$

    Как ее можно применить для пресета ?

    [​IMG]

    - как парсить больше 1000 результатов у гугла по одному запросу?
     
  4. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    Эту регулярку надо использовать так:
    [^а-я0-9ёА-ЯЁa-zA-Zії \:\;\-\—\.\,\(\)\"\'\…\!\?\&\%\$\@\^\=\+\№\r\n]+

    Флаги - стандартные флаги регулярных выражений, тут нужен g - глобальный поиск

    Опцией Parse all results например, она временно не работает из за этой задачи http://a-parser.com/threads/881/
    Так же можно вручную указать подстановки через Query format
     
    kotkokos нравится это.
  5. Malchishka

    Malchishka A-Parser Pro License
    A-Parser Pro

    Регистрация:
    13 сен 2013
    Сообщения:
    42
    Симпатии:
    0
    Как теперь парсить сниппеты после введения нового шаблона, что-то я уже по разному пробую, но у меня получается пустой файл. Дайти плиз скрин правильных настроек.
     
  6. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    на текущей версии точно так же как и раньше, покажи свои настройки
     
  7. Malchishka

    Malchishka A-Parser Pro License
    A-Parser Pro

    Регистрация:
    13 сен 2013
    Сообщения:
    42
    Симпатии:
    0
    Всё работает, я просто пытался скрестить то что было и то что писалось в этой статье http://a-parser.com/threads/1006/
     
  8. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    Подожди следующей версии где будет уже полная поддержка
     
  9. Malchishka

    Malchishka A-Parser Pro License
    A-Parser Pro

    Регистрация:
    13 сен 2013
    Сообщения:
    42
    Симпатии:
    0
    А как сделать так, что бы результат по каждому кею выводился в отдельном файле и этот файл имел название кея, по которому парсились сниппеты?
     
  10. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    В Result file name указать {query}.txt
     
    Malchishka нравится это.
  11. Malchishka

    Malchishka A-Parser Pro License
    A-Parser Pro

    Регистрация:
    13 сен 2013
    Сообщения:
    42
    Симпатии:
    0
    А можно как-то на автомате отправлять "неудачные запросы" на второй/третий круг парсинга?
     
  12. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    никак, за неудачные запросы отвечает параметр Request retries
     

Поделиться этой страницей