Сборник рецептов #10: пишем кастомный парсер поисковика и парсим дерево категорий

Тема в разделе "Новости", создана пользователем Support, 6 окт 2015.

  1. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    1.751
    Симпатии:
    1.271
    10-й выпуск Сборника рецептов. В нем мы сделаем кастомный парсер поисковика search.disconnect.me и научимся парсить категории из сайтов с сохранением иерархии и путей к ним.

    Парсер search.disconnect.me или альтернатива inurl Google
    В одном из сообщений на форуме был упомянут довольно интересный сервис search.disconnect.me. Также в последнее время все чаще стали появляться сообщения о проблемах при парсинге Гугла с поисковыми операторами. А так как вышеупомянутый сервис позволяет парсить Гугл, при этом не выдавая каптч и без бана прокси, можно попробовать сделать для него парсер на основе Net::HTTP Net::HTTP. Что из этого получилось - можно посмотреть по ссылке выше.
    [​IMG]

    Парсинг дерева категорий с сохранением структуры
    В версии 1.1.292 появилась новая опция Query Builders on all levels. С ее помощью можно регулировать, когда применять Конструктор запросов при парсинге "в глубину". И благодаря этой опции стало возможным парсить дерево категорий из сайтов с сохранением структуры. Как это работает - можно посмотреть по ссылке выше.
    [​IMG]

    Еще больше различных рецептов в нашем Каталоге примеров!

    Предыдущие сборники:
     

Поделиться этой страницей