Добрый день Админ Прошу вас помочь в реализации идеи которая уже с весны гуляет по Рунету Появились даже сервисы наподобии этого - semparser.ru Метод как пишут прост, но как его на А-парсере реализовать для меня проблема Суть в следующем: Группировка семантики После сбора большого семантического ядра возникает серьезная задача по его кластеризации. Уже появилось много сервисов, которые помогают группировать семантику. Например, Rush Analytics, JustMagic. Достаточно эффективный метод кластеризации – группировка фраз на основе SERP. Потренироваться в кластеризации по SERP почти бесплатно можно с помощью этого скрипта на R, который тоже достаточно эффективен. Для начала его работы нужно собрать ТОП 10 для всех подлежащих кластеризации ключевых фраз. В результате работы скрипта специалист получает фразы и номера групп. Похожие фразы находятся в одинаковых группах. В скрипте можно изменять параметры, чтобы увеличивать или уменьшать количество групп. Но это промежуточный вариант в идеале на выходе цель получить группировку запросов в одну строку через разделители с одинаковыми идентификаторами повторностей/совпадений(на скрине это будет крайняя колонка) Прошу помочь
1. как собрать такую базу посредством А-парсера, которая на скрине, именно количество частотностей по выдаче ПС 2. обработать эту базу в результирующий отчёт - группировку запросов в одну строку через разделители с одинаковыми идентификаторами повторностей/совпадений(на скрине это будет крайняя колонка)
наверно стоит подробно описать способ оценки частотности, чтобы саппорт смог помочь составить задание, цифры на скрине и размытые фразы мало чем помогут
На старте имеем файл ключей для первоначального парсинга, после первой итерации парсинга А-парсером ПС получаем первичный файл отчёта с содержанием в виде пары, к примеру - ключ1*урл1 ключ1*урл2 ключ2*урл3 ключ2*урл1 ключ3*урл3 ключ3*урл5 ключ4*урл1 ключ4*урл6 .. Некоторые урлы будут повторяться, и тут сработает кластеризация. Чтобы ее выполнить по такому файлу нужно качнуть р-прожект - http://www.r-project.org/, + к нему либу mefa на том же сайте. И вот этому скрипту R : library("cluster") library("mefa") data<-read.table("c:/inclust.csv", sep="*") x<-mefa(stcs(data)) cl<-hclust(dist(x$xtab), method="ward.D") clustnum<-cutree(cl,k=round(length(levels(data[,1]))/5),0) write.table(clustnum, file='c:/out.csv', sep=';',col.names = FALSE) подаём на вход полученный файл отчёта после первого прогона. Скрипт производит иерархическую кластеризацию запросов в группы, исходя из их пересечений на посадочных страницах по какой либо поисковой системе. После того как скрипт отработает, получаем нечто такое: "25 кадр бросить курить онлайн";1 "аудио как бросить курить";2 "аудио книга как бросить курить";2 "бросай курить картинки";1 "бросил курить набрал вес";1 "бросить курить 25 кадр отзывы";1 "видео онлайн как бросить курить";3 "как бросить курить онлайн";3 "как бросить курить смотреть онлайн";3 "кар как бросить курить";4 "кинг корпорация бросайте курить";5 "книга как бросить курить карр";4 "корпорация бросайте курить";5 "мам я бросил курить аккорды";1 "метод шичко бросить курить";1 "методы бросить курить";1 "можно ли бросить курить сразу";1 "отзывы бросивших курить";1 ...... Теперь сортируем по крайнему значению, все фразы у которых совпадают цифры, попадают в один кластер(это все синонимы по мнению ПС). Как видим по мнению гугла ключи "фильм легко бросить курить скачать" и "видео онлайн как бросить курить" - аналоги, их можно собрать в один кластер, то есть в одну строку через сепаратор/разделитель : фильм легко бросить курить скачать; видео онлайн как бросить курить; и т.д. Если есть альтернативный вариант такой кластеризации, то приветствуется, ведь вы разработчики и знакомы со всеми тонкостями.
Т.е. работа А-парсера здесь заключается в формировании первичного файла? Это просто: А все дальнейшие шаги вы уже подробно расписали.
Спасибо за ответ. С первой частью реализации процесса проблем не возникло, меня интересует более вторая часть, неужели нет описанному функционалу скрипта р-прожекта альтернативы средствами А-парсера??? Охото без сторонних плюшек, всё делать только в А-парсере.
Я не специалист в языке R и не особо понимаю алгоритм работы скрипта. Но думаю, что такое можно будет реализовать только тогда, когда появится поддержка расширений в А-парсере. А пока, скорее всего, придется использовать описанный вами метод.
Основная идея алгоритма кластеризации в том, что в одну группу объединяются запросы имеющие определенное количество пересечений (общих url) по топу для каждого из запросов +1 Тема по созданию модуля кластеризации очень актуальна Было бы неплохо создать вкладку, где отображалось бы на основании каких url образована та или иная группа
Видимо получится сделать группировку запросов по топам при помощи этой библиотеки https://github.com/emilbayes/kMeans.js