Группировка семантического ядра на основе кластеризации поисковых систем

BESHENEI

A-Parser Pro License
A-Parser Pro
Добрый день Админ
Прошу вас помочь в реализации идеи которая уже с весны гуляет по Рунету

Появились даже сервисы наподобии этого - semparser.ru

Метод как пишут прост, но как его на А-парсере реализовать для меня проблема

Суть в следующем:

Группировка семантики

После сбора большого семантического ядра возникает серьезная задача по его кластеризации. Уже появилось много сервисов, которые помогают группировать семантику. Например, Rush Analytics, JustMagic.

Достаточно эффективный метод кластеризации – группировка фраз на основе SERP. Потренироваться в кластеризации по SERP почти бесплатно можно с помощью этого скрипта на R, который тоже достаточно эффективен. Для начала его работы нужно собрать ТОП 10 для всех подлежащих кластеризации ключевых фраз.

В результате работы скрипта специалист получает фразы и номера групп. Похожие фразы находятся в одинаковых группах. В скрипте можно изменять параметры, чтобы увеличивать или уменьшать количество групп.

0_11a1e5_81dbcda7_orig.png


Но это промежуточный вариант в идеале на выходе цель получить группировку запросов в одну строку через разделители с одинаковыми идентификаторами повторностей/совпадений(на скрине это будет крайняя колонка)

Прошу помочь
 
1. как собрать такую базу посредством А-парсера, которая на скрине, именно количество частотностей по выдаче ПС
2. обработать эту базу в результирующий отчёт - группировку запросов в одну строку через разделители с одинаковыми идентификаторами повторностей/совпадений(на скрине это будет крайняя колонка)
 
наверно стоит подробно описать способ оценки частотности, чтобы саппорт смог помочь составить задание, цифры на скрине и размытые фразы мало чем помогут
 
На старте имеем файл ключей для первоначального парсинга, после первой итерации парсинга А-парсером ПС получаем первичный файл отчёта с содержанием в виде пары, к примеру -

ключ1*урл1
ключ1*урл2
ключ2*урл3
ключ2*урл1
ключ3*урл3
ключ3*урл5
ключ4*урл1
ключ4*урл6
..

Некоторые урлы будут повторяться, и тут сработает кластеризация. Чтобы ее выполнить по такому файлу нужно качнуть р-прожект - http://www.r-project.org/, + к нему либу mefa на том же сайте.
И вот этому скрипту R :

library("cluster")
library("mefa")
data<-read.table("c:/inclust.csv", sep="*")
x<-mefa(stcs(data))
cl<-hclust(dist(x$xtab), method="ward.D")
clustnum<-cutree(cl,k=round(length(levels(data[,1]))/5),0)
write.table(clustnum, file='c:/out.csv', sep=';',col.names = FALSE)

подаём на вход полученный файл отчёта после первого прогона. Скрипт производит иерархическую кластеризацию запросов в группы, исходя из их пересечений на посадочных страницах по какой либо поисковой системе. После того как скрипт отработает, получаем нечто такое:

"25 кадр бросить курить онлайн";1
"аудио как бросить курить";2
"аудио книга как бросить курить";2
"бросай курить картинки";1
"бросил курить набрал вес";1
"бросить курить 25 кадр отзывы";1
"видео онлайн как бросить курить";3
"как бросить курить онлайн";3
"как бросить курить смотреть онлайн";3
"кар как бросить курить";4
"кинг корпорация бросайте курить";5
"книга как бросить курить карр";4
"корпорация бросайте курить";5
"мам я бросил курить аккорды";1
"метод шичко бросить курить";1
"методы бросить курить";1
"можно ли бросить курить сразу";1
"отзывы бросивших курить";1
......

Теперь сортируем по крайнему значению, все фразы у которых совпадают цифры, попадают в один кластер(это все синонимы по мнению ПС).

Как видим по мнению гугла ключи "фильм легко бросить курить скачать" и "видео онлайн как бросить курить" - аналоги, их можно собрать в один кластер, то есть в одну строку через сепаратор/разделитель :

фильм легко бросить курить скачать; видео онлайн как бросить курить; и т.д.

Если есть альтернативный вариант такой кластеризации, то приветствуется, ведь вы разработчики и знакомы со всеми тонкостями.
 
Т.е. работа А-парсера здесь заключается в формировании первичного файла? Это просто:
anvi7.png

А все дальнейшие шаги вы уже подробно расписали.
 
Спасибо за ответ.
С первой частью реализации процесса проблем не возникло, меня интересует более вторая часть, неужели нет описанному функционалу скрипта р-прожекта альтернативы средствами А-парсера???
Охото без сторонних плюшек, всё делать только в А-парсере.
 
Я не специалист в языке R и не особо понимаю алгоритм работы скрипта. Но думаю, что такое можно будет реализовать только тогда, когда появится поддержка расширений в А-парсере. А пока, скорее всего, придется использовать описанный вами метод.
 
Но думаю, что такое можно будет реализовать только тогда, когда появится поддержка расширений в А-парсере.

Может тогда стоит открыть голосование и перенести тему в раздел хотелок А-парсера ;)
 
Основная идея алгоритма кластеризации в том, что в одну группу объединяются запросы имеющие определенное количество пересечений (общих url) по топу для каждого из запросов
+1 Тема по созданию модуля кластеризации очень актуальна
Было бы неплохо создать вкладку, где отображалось бы на основании каких url образована та или иная группа
 
Назад
Верх