Парсим базу для GSA SER

Reset

A-Parser Enterprise License
A-Parser Enterprise
Приветствую!

В недавнем материале я рассказывал о том как можно собрать базу для Хрумера, теперь же пришел черед GSA Search Engine Ranker.

Воообще GSA SER и сам умеет собирать базы во время работы, что является большим плюсом относительно Хрумера, да еще и поддерживает кучу движков с разбивкой по языкам/странам

QVgy28O.png

Однако сбор баз через А-парсер выходит быстрее и удобнее (можно настраивать больше параметров), а еще вы можете распараллелить процессы между серверами .

Чтобы не придумывать паттерны для сбора, их можно взять из самого GSA, они находятся тут c:\Program Files (x86)\GSA Search Engine Ranker\Engines\.

Файлы разбиты по движкам, но в каждом указано для какого типа ресурса он подходит и какие для него есть поисковые дорки. Например возьмем PluXml.ini, в нем важные две секции

Код:
[setup]
...
;Тип действия из опций проекта
engine type=Blog Comment
....
;Поисковые запросы для поиска таких сайтов (кстати видно что кодировка в файле прописана кривовато
search term="gйnйrй par pluxml" "йcrire un commentaire"|"Vйrification anti-spam" "йcrire un commentaire"|"Fil des commentaires de cet article" "Commentaires"|"Ecrire un commentaire" "Commentaire" "Site (facultatif)"

Первая секция нам нужна для того чтоб отобрать нужный тип движков, а вторая чтоб сформировать массив подстановок для поиска.

Чтоб не делать это руками - я написал простой скрипт на PHP, который пройдется по этим файлам и соберет признаки в файлы <тип действия>.txt. Все что нужно сделать, это закинуть к нему в папку ini файлы из c:\Program Files (x86)\GSA Search Engine Ranker\Engines\ из которых нужно сформировать списки подстановок и запустить. В результате получится что-то подобное.

EqtyRpu.png

1) это ini файлы
2) сам скрипт
3) результат работы

Я приклеплю скрипт и актуальные на сейчас файлы к посту.

Дальше все просто
1) при необходимости редактируем получившиеся файлы
2) закидываем полученные файлы к апарсеру в папку queries/subs, переименовав их так, чтоб в имени не было пробелов (может это и не нужно, пусть суппорт есть что поправит, также мне почему то пришлось создать новый файл и перекинуть в него контент, может какой то глюк)
3) Берем встроенный парсер гугла или любого другого поисковика и через макросы подстановок указываем запросы по которым будет собирать базу и подключаем файл с паттернами для GSA, например вот так

mVjqqVA.png

где вместо WORD1, WORD2 - нужно подставить ваши ключевые слова

После того, как база спарсилась, импортируем ее в GSA SER, для жмем на проекте правой кнопкой и дальше вот так

QrSKYrZ.png

Успехов!
 

Вложения

  • gsa.zip
    gsa.zip
    46,7 КБ · Просмотры: 77
Последнее редактирование:
Назад
Верх