1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парсим базу для GSA SER

Тема в разделе "Делимся опытом", создана пользователем Reset, 19 авг 2024.

Метки:
  1. Reset

    Reset A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    28 фев 2019
    Сообщения:
    25
    Симпатии:
    33
    Приветствую!

    В недавнем материале я рассказывал о том как можно собрать базу для Хрумера, теперь же пришел черед GSA Search Engine Ranker.

    Воообще GSA SER и сам умеет собирать базы во время работы, что является большим плюсом относительно Хрумера, да еще и поддерживает кучу движков с разбивкой по языкам/странам

    QVgy28O.png

    Однако сбор баз через А-парсер выходит быстрее и удобнее (можно настраивать больше параметров), а еще вы можете распараллелить процессы между серверами .

    Чтобы не придумывать паттерны для сбора, их можно взять из самого GSA, они находятся тут c:\Program Files (x86)\GSA Search Engine Ranker\Engines\.

    Файлы разбиты по движкам, но в каждом указано для какого типа ресурса он подходит и какие для него есть поисковые дорки. Например возьмем PluXml.ini, в нем важные две секции

    Код:
    [setup]
    ...
    ;Тип действия из опций проекта
    engine type=Blog Comment
    ....
    ;Поисковые запросы для поиска таких сайтов (кстати видно что кодировка в файле прописана кривовато
    search term="gйnйrй par pluxml" "йcrire un commentaire"|"Vйrification anti-spam" "йcrire un commentaire"|"Fil des commentaires de cet article" "Commentaires"|"Ecrire un commentaire" "Commentaire" "Site (facultatif)"
    
    Первая секция нам нужна для того чтоб отобрать нужный тип движков, а вторая чтоб сформировать массив подстановок для поиска.

    Чтоб не делать это руками - я написал простой скрипт на PHP, который пройдется по этим файлам и соберет признаки в файлы <тип действия>.txt. Все что нужно сделать, это закинуть к нему в папку ini файлы из c:\Program Files (x86)\GSA Search Engine Ranker\Engines\ из которых нужно сформировать списки подстановок и запустить. В результате получится что-то подобное.

    EqtyRpu.png

    1) это ini файлы
    2) сам скрипт
    3) результат работы

    Я приклеплю скрипт и актуальные на сейчас файлы к посту.

    Дальше все просто
    1) при необходимости редактируем получившиеся файлы
    2) закидываем полученные файлы к апарсеру в папку queries/subs, переименовав их так, чтоб в имени не было пробелов (может это и не нужно, пусть суппорт есть что поправит, также мне почему то пришлось создать новый файл и перекинуть в него контент, может какой то глюк)
    3) Берем встроенный парсер гугла или любого другого поисковика и через макросы подстановок указываем запросы по которым будет собирать базу и подключаем файл с паттернами для GSA, например вот так

    mVjqqVA.png

    где вместо WORD1, WORD2 - нужно подставить ваши ключевые слова

    После того, как база спарсилась, импортируем ее в GSA SER, для жмем на проекте правой кнопкой и дальше вот так

    QrSKYrZ.png

    Успехов!
     

    Вложения:

    • gsa.zip
      Размер файла:
      46,7 КБ
      Просмотров:
      10
    #1 Reset, 19 авг 2024
    Последнее редактирование: 19 авг 2024
    Rost, Petr_G, Parsme и 2 другим нравится это.
  2. Parsme

    Parsme A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    20 июн 2018
    Сообщения:
    3
    Симпатии:
    0
    Отлично, спасибо!
     

Поделиться этой страницей