Перейти к основному содержимому

SE::Yandex::WordStat - Парсер Вордстат (WordStat). Сбор ключевых слов и статистики показов

img

Обзор парсера

Wordstat (Вордстат) - это сервис Яндекса, предназначенный для оценки пользовательского интереса к различным тематикам и подбора ключевых слов для SEO-оптимизации и контекстной рекламы. Кроме того, с помощью Wordstat Yandex можно оценить сезонность и географическую зависимость поисковых запросов.

Парсер ключевых слов Yandex WordStat поддерживает автоматические размножение запросов, вы можете быть уверены что получите максимальное число результатов из выдачи. Также A-Parser может автоматически переходить по связанным запросам на указанную глубину.

Функционал A-Parser позволяет сохранять настройки парсинга для дальнейшего использования (пресеты), задавать расписание парсинга и многое другое. Вы можете использовать автоматическое размножение запросов, подстановку подзапросов из файлов, перебор цифро-буквенных комбинаций и списков для получения максимально возможного количества результатов при парсинге Яндекс Вордстат.

Сохранение результатов возможно в том виде и структуре которая вам необходима, благодаря встроенному мощному шаблонизатору Template Toolkit который позволяет применять дополнительную логику к результатам и выводить данные в различных форматах, включая JSON, SQL и CSV.

Кейсы по применению парсера

Аккаунты

Для работы парсера SE::Yandex::WordStatSE::Yandex::WordStat необходимы аккаунты Яндекс. Аккаунты можно зарегистрировать с помощью парсера SE::Yandex::RegisterSE::Yandex::Register или просто добавить существующие аккаунты в файл files/SE-Yandex/accounts.txt в поддерживаемом формате.

Либо можно включить регистрацию аккаунтов "на лету".

Собираемые данные

  • Количество показов по указанному запросу
  • Дату обновления статистики
  • Список всех кейвордов связанных с указанным и число их показов в месяц
  • Список всех дополнительных кейвордов которые искали пользователи и число их показов в месяц

какие данные собирает парсер SE::Yandex::WordStat

Возможности

  • Парсит максимальное отдаваемое вордстатом число результатов - 40 страниц по 50 элементов выдачи
  • Поддерживает выбор региона поиска (с подгруппами)
  • Может автоматически подставлять найденные кейворды заново в запросы (опция Parse to level)
  • Возможность выбора сразу нескольких регионов для оценки
  • Поддержка автоматического обхода Smart captcha и возможность обхода графической каптчи с помощью сервиса AntiCaptcha или любого другого поддерживающего их API
  • Выбор типа устройства
  • Возможность выбирать метод авторизации
  • Возможность регистрировать аккаунты "на лету"
  • Поддерживает работу с расширенным форматом аккаунтов и умеет отвечать на секретный вопрос (если ответ есть в info). А также использует для авторизации сохраненную прокси (если она есть в info).

Варианты использования

  • Оценка количества трафика по кейворду (частота)
  • Поиск новых ключевых слов схожей тематики
  • Сбор больших баз ключевых слов разной тематики
  • Любые другие варианты подразумевающие парсинг Яндекс.WordStat в том или ином виде

Запросы

В качестве запросов необходимо указывать ключевые слова, точно так же как если бы их вводили прямо в форму поиска Вордстата, например:

окна москва  
"окна москва"
!окна !москва

Варианты вывода результатов

A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структуированной, например CSV или JSON

Вывод по умолчанию

Формат результата:

$query - $totalcount, updated: $updatedate\nkeywords:\n$keys.format('$key: $count\n')\nadditional keywords:\n$search.format('$key: $count\n')

В результате отображен исходный запрос, число его показов, дата обновления статистики, список связанных кейвордов и их показы в месяц, список дополнительных кейвордов и их показы в месяц:

!окна !москва - 10368, updated: 16/05/2013  
keywords:
окна москва: 32367
пластиковые окна москва: 8994
окна пвх москва: 4813
купить окна москва: 2561
окна цены москва: 1706
москва работа окна: 1547
вакансии окна москва: 1187
деревянные окна москва: 1087
служба +одного окна москва: 1021
...
additional keywords:
производство окон пвх: 8512
окна rehau: 15686
окна salamander: 1576
окна kbe: 3798
окна кбе: 6089
окна кве: 3227
остекление балконов: 83216
беседки: 471213
остекление лоджий: 26366
офисные перегородки: 18740
монтаж окон: 26223

Вывод в таблицу CSV

Формат результата:

[% FOREACH i IN keys;
tools.CSVline(query, i. key, i.count);
END %]

Пример результата:

парсер сайтов,  парсер сайтов, 8055
парсер сайтов, бесплатный парсер сайтов, 1122
парсер сайтов, парсер официальный сайт, 666
парсер сайтов, сайты облачный парсер, 507
парсер сайтов, парсер email +с сайта, 477
парсер сайтов, парсер сайта скачать, 434
парсер сайтов, парсер адресов сайтов, 390
парсер сайтов, парсер сайтов онлайн, 366
парсер сайтов, турбо парсер сайтов, 342
парсер сайтов, турбо парсер официальный сайт, 309
парсер сайтов, облачный парсер официальный сайт, 308
парсер сайтов, парсер сайтов excel, 276
парсер сайтов, слиза парсер сайт, 259

Сохранение в формате SQL

Формат результата:

[% FOREACH i IN keys;
"INSERT INTO keys VALUES('" _ query _ "', '"; i.key _ "', '"; i.count _ "')\n";
END %]

Пример результата:

INSERT INTO serp VALUES('тест', 'тест', '10837937')
INSERT INTO serp VALUES('тест', 'тест драйв', '1164338')
INSERT INTO serp VALUES('тест', 'тесто +для теста', '879980')
INSERT INTO serp VALUES('тест', 'тесты онлайн', '792560')
INSERT INTO serp VALUES('тест', 'тест драйв видео', '550164')
INSERT INTO serp VALUES('тест', 'рецепт теста', '484489')
INSERT INTO serp VALUES('тест', 'тесты +с ответами', '449401')
INSERT INTO serp VALUES('тест', 'тест 2014', '427602')
INSERT INTO serp VALUES('тест', 'тесты бесплатно', '315144')
INSERT INTO serp VALUES('тест', 'бесплатные тесты', '315096')
INSERT INTO serp VALUES('тест', 'тесты +для девочек', '309355')
INSERT INTO serp VALUES('тест', 'тесты +по темам', '293917')
INSERT INTO serp VALUES('тест', 'игры тесты', '288989')

Дамп результатов в JSON

Общий формат результата:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.updatedate = p1.updatedate;
obj.totalcount = p1.totalcount;
obj.keys = [];

FOREACH item IN p1.keys;
obj.keys.push({
key = item.key
count = item.count
});
END;

obj.json %]

Начальный текст:

[

Конечный текст:

]

Пример результата:

[{
"updatedate": "12.03.2014",
"totalcount": "10837937",
"keys": [
{
"count": "10837937",
"key": "тест"
},
{
"count": "1164338",
"key": "тест драйв"
},
{
"count": "879980",
"key": "тесто +для теста"
},
{
"count": "792560",
"key": "тесты онлайн"
},
]
}]
подсказка

Смотреть также: Фильтры результатов

Возможные настройки

ПараметрЗначение по умолчаниюОписание
Pages count10Количество страниц для парсинга
RegionAllРегион поиска
Remove + from keywordsУдалять символ плюса (+) из найденных запросов
AntiGate presetdefaultНеобходимо предварительно настроить парсер Util::AntiGateUtil::AntiGate - указать свой ключ доступа и другие параметры, после чего выбрать созданный пресет здесь
AntiGate preset for LogindefaultПресет AntiGate для логина. Необходимо предварительно настроить парсер Util::AntiGateUtil::AntiGate с параметрами, после чего выбрать созданный пресет здесь
TypeAllВыбор типа устройства
AccountsOnly from "accounts.txt"Выбор метода работы с аккаунтами: Always auto register - всегда автоматически регистрировать аккаунты "на лету", требуется выбрать настроенный пресет в параметре SE::Yandex::Register preset. Auto register if no more in "accounts.txt" - сначала используются существующие аккаунты из accounts.txt, а если они заканчиваются - используется автоматическая регистрация "на лету", для которой соответственно нужно выбрать настроенный пресет в параметре SE::Yandex::Register preset. Only from "accounts.txt" - использовать только существующие аккаунты из accounts.txt, а если они заканчиваются - ждать заданное время (параметр Wait new accounts in "accounts.txt") появления новых
Wait new accounts in "accounts.txt"0Время ожидания появления новых аккаунтов в accounts.txt
Remove bad accountsAlways, except wrong login/passwordАвтоматическое удаление "плохих" аккаунтов: Always - всегда удалять. Always, except wrong login/password - удалять всегда, кроме случаев, когда Яндекс сообщил что указаны неверный логин/пароль. Дело в том, что такое сообщение Яндекс может отдавать при бане IP для абсолютно рабочего аккаунта, поэтому опционально можно оставлять такие аккаунты для повторного использования. Never - никогда не удалять. Вне зависимости от выбранного варианта при ошибках прокси/браузера аккаунты не удаляются
SE::Yandex::Register presetdefaultВыбор пресета настроек для SE::Yandex::RegisterSE::Yandex::Register
Authorization methodHTTPМетод авторизации: HTTP - быстро, не требовательно к ресурсам. Chrome - медленно, требовательно к ресурсам, теоретически может продлевать жизнь аккаунтам
Chrome headlessЕсли опция включена, браузер не будет отображаться
Use sessionsИспользование сессий
Do not reset session if authorization passedНе сбрасывать сессию при ошибках если парсер уже авторизовался
Use Wordstat 2Использование Wordstat 2