Парсинг Вортстата по указанным кеям (в поле, файле)

1 май 2015

  • Как организовать парсинг Вортстата по указанным кеям (в поле, файле)(top)


    Для работы парсера [​IMG] SE::Yandex::WordStat необходимы аккаунты Яндекс. Аккаунты можно зарегистрировать с помощью парсера [​IMG] SE::Yandex::Register.

    1. В Настройках, выбираем парсер [​IMG] SE::Yandex::WordStat, нам необходимо указать:
    Pages count - сколько парсить страниц, выбираем максимум - 40
    Result format - формат результата, допустим нас интересуют только кеи из левой колонки (Что искали со словом) - указываем $keys.format('$key\n')

    Жмем кнопку Сохранить как новый, вводим имя пресета, к примеру Keys list, All pages (стараемся давать осознанные имена), у нас получилось:

    [​IMG]

    2.
    Заходим в Редактор заданий, настраиваем:
    Конфиг потоков - конфигурация потоков, выберем 100 Threads (эти пресеты так же настраиваются во вкладке Настройки)
    Выбираем парсер [​IMG] SE::Yandex::WordStat и созданный нами пресет Keys list, All pages
    Указываем запросы в поле Введите запросы или выбираем файл с запросами (который необходимо предварительно скопировать в папку queries/)
    У нас получилось:

    [​IMG]

    3.
    Теперь можно добавлять задание (кнопка Добавить задание), после чего перейдём в Очередь заданий и увидим наше задание в работе:

    [​IMG]

    4. Когда задание завершится, оно попадет в список завершенных заданий - переключаемся на него нажав в тулбаре кнопку Завершенные. Тут можно увидеть статистику задания, имя созданного файла с результатами. Файл можно скачать нажав кнопку Download или забрать из папки results/

    [​IMG]

    Дополнительно: [​IMG] SE::Yandex::WordStat имеет опцию Parse to level, которая означает что парсер может сам подставлять найденые новые ключевые слова в запросы, тем самым он их так же отпарсит, подстановки будут происходить до указанного уровня вложенности
    Данную опцию можно влючить нажав кнопку с иконкой инструментов справа от парсера:

    [​IMG]

    И выбираем до какого уровня парсить, к примеру до 5ого:

    [​IMG]