Сборник рецептов #29: язык ключевых слов, нормализация запросов и сбор тайтлов в глубину

Тема в разделе "Новости", создана пользователем Support, 4 фев 2019.

  1. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    2.289
    Симпатии:
    1.502
    29-й сборник рецептов, в котором опубликован JS парсер для определения языка ключевых слов, предложен вариант решения для нормализации запросов, а также показано, как парсить карту сайта и одновременно собирать тайтлы страниц. Поехали!

    Определение языка ключевого слова через Яндекс Переводчик
    В A-Parser есть несколько встроенных парсеров для определения языка страницы. Но иногда возникают задачи отфильтровать список ключевых слов по одному или нескольким языкам. Определять язык текстовой строки довольно неплохо умеют различные переводчики, поэтому для решения задачи был выбран Яндекс Переводчик, и по ссылке выше доступен JavaScript парсер, реализующий определение языка ключевого слова.
    [​IMG]

    Нормализатор запросов
    При сборе семантического ядра часто возникает вопрос - какая форма запроса является наиболее частотной, например: "купить диван" или "диван купить". Если запрос 3-х или 4-хсловный, то вариантов становится еще больше. Решение такой задачи на базе парсера WordStat доступно в нашем Каталоге по ссылке выше.
    [​IMG]

    Карта сайта и заголовки
    Сбор карты сайта - это довольно простая задача для А-Парсера, которая решается встроенным парсером ссылок. Но иногда, кроме простого сбора ссылок, нужно еще и собрать тайтлы. И это можно делать параллельно с проходом по ссылкам в глубину. Готовый пресет доступен по ссылке выше.
    [​IMG]

    Еще больше различных рецептов в нашем Каталоге!
    Предлагайте ваши идеи для новых парсеров здесь, лучшие будут реализованы и опубликованы.

    Подписывайтесь на наш канал на Youtube - там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в Twitter.

     
    relay нравится это.

Поделиться этой страницей