1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Помощь в парсинге сайтов

Тема в разделе "Делимся опытом", создана пользователем Propovednik, 17 мар 2014.

  1. Propovednik

    Propovednik A-Parser Pro License
    A-Parser Pro

    Регистрация:
    15 окт 2013
    Сообщения:
    5
    Симпатии:
    0
    Здравствуйте! Помогите, пожалуйста, составить правильно проекты для следующих целей:

    необходимо для начала спарсить сайты с глубиной в 30 страниц в выдаче, именно главные домены по определенным ключевым словам.
    Затем нужно на этих сайтах, на главных страницах собранных доменов, собрать все ссылки на внутренние страницы с текстами - Контакты, Реклама, Поддержка и т.д.
    Далее на всех собранных страницах собрать почты. (с этим уже разобрался)

    Заранее большое спасибо!
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    Буду показывать на новой версии, с новым форматом результатов:

    Парсинг сайтов в выдачи(топ 30), сохранение только уникальных доменов:
    [​IMG]
    • Links per page - количество ссылок на страницу 30, Pages count - количество страниц 1
    • Делаем уникализацию(убираем повторы доменов)
    • С помощью конструктора результатов извлекаем из ссылки домен
    Парсинг внутренних ссылок с фильтрацией по анкору:
    [​IMG]
    • Выставляем глубину парсинга 10 - обычно этого достаточно
    • Фильтруем анкоры внутренних ссылок по регулярному выражению, в котором указываем инетерсующие нас слова, выставляем флаг i - поиск без учета регистра
    • Меняем формат результата - сохраняем только внутренние ссылки
    • Делаем уникализацию внутренних ссылок чтобы избежать повторов в результатах
    • Выставляем галку Уникальные запросы - очень важный момент при парсинге в глубину
     
    limoshkaa и d4k нравится это.

Поделиться этой страницей