1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Группировка семантического ядра на основе кластеризации поисковых систем

Тема в разделе "Делимся опытом", создана пользователем BESHENEI, 30 июл 2015.

  1. BESHENEI

    BESHENEI A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 мар 2015
    Сообщения:
    35
    Симпатии:
    19
    Добрый день Админ
    Прошу вас помочь в реализации идеи которая уже с весны гуляет по Рунету

    Появились даже сервисы наподобии этого - semparser.ru

    Метод как пишут прост, но как его на А-парсере реализовать для меня проблема

    Суть в следующем:

    Группировка семантики

    После сбора большого семантического ядра возникает серьезная задача по его кластеризации. Уже появилось много сервисов, которые помогают группировать семантику. Например, Rush Analytics, JustMagic.

    Достаточно эффективный метод кластеризации – группировка фраз на основе SERP. Потренироваться в кластеризации по SERP почти бесплатно можно с помощью этого скрипта на R, который тоже достаточно эффективен. Для начала его работы нужно собрать ТОП 10 для всех подлежащих кластеризации ключевых фраз.

    В результате работы скрипта специалист получает фразы и номера групп. Похожие фразы находятся в одинаковых группах. В скрипте можно изменять параметры, чтобы увеличивать или уменьшать количество групп.

    [​IMG]

    Но это промежуточный вариант в идеале на выходе цель получить группировку запросов в одну строку через разделители с одинаковыми идентификаторами повторностей/совпадений(на скрине это будет крайняя колонка)

    Прошу помочь
     
    aloha, Cloud7, EceninPars и ещё 1-му нравится это.
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.340
    Симпатии:
    1.799
    а с чем именно помочь?
     
  3. BESHENEI

    BESHENEI A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 мар 2015
    Сообщения:
    35
    Симпатии:
    19
    1. как собрать такую базу посредством А-парсера, которая на скрине, именно количество частотностей по выдаче ПС
    2. обработать эту базу в результирующий отчёт - группировку запросов в одну строку через разделители с одинаковыми идентификаторами повторностей/совпадений(на скрине это будет крайняя колонка)
     
  4. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.340
    Симпатии:
    1.799
    наверно стоит подробно описать способ оценки частотности, чтобы саппорт смог помочь составить задание, цифры на скрине и размытые фразы мало чем помогут
     
  5. BESHENEI

    BESHENEI A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 мар 2015
    Сообщения:
    35
    Симпатии:
    19
    На старте имеем файл ключей для первоначального парсинга, после первой итерации парсинга А-парсером ПС получаем первичный файл отчёта с содержанием в виде пары, к примеру -

    ключ1*урл1
    ключ1*урл2
    ключ2*урл3
    ключ2*урл1
    ключ3*урл3
    ключ3*урл5
    ключ4*урл1
    ключ4*урл6
    ..

    Некоторые урлы будут повторяться, и тут сработает кластеризация. Чтобы ее выполнить по такому файлу нужно качнуть р-прожект - http://www.r-project.org/, + к нему либу mefa на том же сайте.
    И вот этому скрипту R :

    library("cluster")
    library("mefa")
    data<-read.table("c:/inclust.csv", sep="*")
    x<-mefa(stcs(data))
    cl<-hclust(dist(x$xtab), method="ward.D")
    clustnum<-cutree(cl,k=round(length(levels(data[,1]))/5),0)
    write.table(clustnum, file='c:/out.csv', sep=';',col.names = FALSE)

    подаём на вход полученный файл отчёта после первого прогона. Скрипт производит иерархическую кластеризацию запросов в группы, исходя из их пересечений на посадочных страницах по какой либо поисковой системе. После того как скрипт отработает, получаем нечто такое:

    "25 кадр бросить курить онлайн";1
    "аудио как бросить курить";2
    "аудио книга как бросить курить";2
    "бросай курить картинки";1
    "бросил курить набрал вес";1
    "бросить курить 25 кадр отзывы";1
    "видео онлайн как бросить курить";3
    "как бросить курить онлайн";3
    "как бросить курить смотреть онлайн";3
    "кар как бросить курить";4
    "кинг корпорация бросайте курить";5
    "книга как бросить курить карр";4
    "корпорация бросайте курить";5
    "мам я бросил курить аккорды";1
    "метод шичко бросить курить";1
    "методы бросить курить";1
    "можно ли бросить курить сразу";1
    "отзывы бросивших курить";1
    ......

    Теперь сортируем по крайнему значению, все фразы у которых совпадают цифры, попадают в один кластер(это все синонимы по мнению ПС).

    Как видим по мнению гугла ключи "фильм легко бросить курить скачать" и "видео онлайн как бросить курить" - аналоги, их можно собрать в один кластер, то есть в одну строку через сепаратор/разделитель :

    фильм легко бросить курить скачать; видео онлайн как бросить курить; и т.д.

    Если есть альтернативный вариант такой кластеризации, то приветствуется, ведь вы разработчики и знакомы со всеми тонкостями.
     
    Cloud7 и Force68 нравится это.
  6. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.588
    Симпатии:
    2.174
    Т.е. работа А-парсера здесь заключается в формировании первичного файла? Это просто:
    [​IMG]
    А все дальнейшие шаги вы уже подробно расписали.
     
  7. BESHENEI

    BESHENEI A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 мар 2015
    Сообщения:
    35
    Симпатии:
    19
    Спасибо за ответ.
    С первой частью реализации процесса проблем не возникло, меня интересует более вторая часть, неужели нет описанному функционалу скрипта р-прожекта альтернативы средствами А-парсера???
    Охото без сторонних плюшек, всё делать только в А-парсере.
     
  8. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.588
    Симпатии:
    2.174
    Я не специалист в языке R и не особо понимаю алгоритм работы скрипта. Но думаю, что такое можно будет реализовать только тогда, когда появится поддержка расширений в А-парсере. А пока, скорее всего, придется использовать описанный вами метод.
     
  9. BESHENEI

    BESHENEI A-Parser Pro License
    A-Parser Pro

    Регистрация:
    20 мар 2015
    Сообщения:
    35
    Симпатии:
    19
    Может тогда стоит открыть голосование и перенести тему в раздел хотелок А-парсера ;)
     
    nouton и Force68 нравится это.
  10. tarasnick1

    tarasnick1 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    24 авг 2015
    Сообщения:
    39
    Симпатии:
    29
    Основная идея алгоритма кластеризации в том, что в одну группу объединяются запросы имеющие определенное количество пересечений (общих url) по топу для каждого из запросов
    +1 Тема по созданию модуля кластеризации очень актуальна
    Было бы неплохо создать вкладку, где отображалось бы на основании каких url образована та или иная группа
     
  11. tarasnick1

    tarasnick1 A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    24 авг 2015
    Сообщения:
    39
    Симпатии:
    29
    Видимо получится сделать группировку запросов по топам при помощи этой библиотеки https://github.com/emilbayes/kMeans.js
     

Поделиться этой страницей