Сборник рецептов #22: проверка индексации в нескольких ПС, многоуровневый парсинг и поиск сабдоменов

Тема в разделе "Новости", создана пользователем Support, 16 апр 2018.

  1. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    2.083
    Симпатии:
    1.440
    22-й сборник рецептов. В нем мы разберемся, как проверять индексацию всех страниц сайта одновременно в нескольких поисковиках, научимся парсить данные по ссылкам из выдачи одним заданием и будем искать сабдомены на сайтах. Поехали!

    Получение страниц сайта и проверка индексации в Google и Яндекс
    Данный пресет позволяет спарсить ссылки на все страницы сайта и одновременно проверить их на предмет индексации поисковиками (в примере Google и Яндекс, можно по аналогии добавить другие ПС). Готовый пресет и описание по ссылке выше.
    [​IMG]

    Парсим title и description для TOP10 поисковой выдачи по ключевому слову
    Пример использования tools.query.add в JavaScript парсерах. Данный парсер получает ссылки из выдачи, после чего собирает из каждой страницы title и description. И все это одним заданием с максимальной производительностью, благодаря многопоточному парсингу. Парсер с описанием доступны по ссылке выше.
    [​IMG]

    Поиск сабдоменов сайта
    Небольшой пример, который демонстрирует, как собрать поддомены одного или нескольких сайтов. Используется HTML::LinkExtractor HTML::LinkExtractor и Parse to level для прохода вглубь по страницам сайта. При этом Конструктором результатов извлекаются из внутренних ссылок домены и выводятся с уникализацией по строке. Готовый пресет - по ссылке выше.
    [​IMG]

    Кроме этого:

    Еще больше различных рецептов в нашем Каталоге!
    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

    Сборники рецептов:
     
    Forbidden нравится это.

Поделиться этой страницей