Перейти к основному содержимому

SE::Yandex::SQI - Проверка Индекса качества сайта в Яндексе

Обзор парсера

Обзор парсераSE::Yandex::SQISE::Yandex::SQI – проверка индекса качества сайта в Яндексе. Невероятно быстрый парсер, скорость работы 3000-7000 запросов в минуту.

Вы можете использовать автоматическое размножение запросов, подстановку подзапросов из файлов, перебор цифро-буквенных комбинаций и списков для получения максимально возможного количества результатов. Используя фильтрацию результатов вы можете сразу почистить результат, удалив весь не нужный мусор (использовав минус-слова).

Функционал A-Parser позволяет сохранять настройки парсинга парсера SE::Yandex::SQI для дальнейшего использования (пресеты), задавать расписание парсинга и многое другое.

Сохранение результатов возможно в том виде и структуре которая вам необходима, благодаря встроенному мощному шаблонизатору Template Toolkit который позволяет применять дополнительную логику к результатам и выводить данные в различных форматах, включая JSON, SQL и CSV.

Собираемые данные

  • Индекс качества сайта (Яндекс ИКС)
  • Данные о наличии значков у сайта (1 - значек получен, 0 - значка нет):
    • Выбор пользователей
    • Популярный сайт
    • Защищённое соединение
    • Турбо-страницы
    • Является ли сайт официальным
  • Для значков "Выбор пользователей" и "Популярный сайт" можно получать степень готовности к получению значка в виде промежуточного значения от 0 до 1, например 0.4.
  • Количество отзывов, оценка и рейтинг
  • Рейтинг магазина в поиске по товарам и рейтинг магазина на Яндекс Маркете (если эти данные доступны для искомого сайта)

Варианты использования

  • Оценка полезности сайта с точки зрения Яндекса
  • Сбор тайтлов

Запросы

В качестве запросов необходимо указывать домен искомого сайта. Можно указывать как с протоколом, так и без него, например:

yandex.ru 
google.com
vk.com
facebook.com
https://a-parser.com

Варианты вывода результатов

A-Parser поддерживает гибкое форматирование результатов благодаря встроенному шаблонизатору Template Toolkit, что позволяет ему выводить результаты в произвольной форме, а также в структуированной, например CSV или JSON

Вывод по умолчанию

Формат результата:

$query: $sqi\n

Пример результата, в котором отображен начальный запрос и его ИКС:

facebook.com: 130000  
yandex.ru: -1
https://a-parser.com: 110
google.com: 120000
vk.com: 340000

Если ИКС для домена недоступен, то в результате будет -1.

Вывод в таблицу CSV

Формат результата:

[% tools.CSVline(query, sqi, rating); %]

Имя файла:

$datefile.format().csv

Начальный текст:

Домен,Рейтинг,Автор,Цена

подсказка

Чтобы опция "Начальный текст" была доступна в Редакторе заданий, нужно активировать "Больше опций". В "Начальный текст" записываем названия столбцов через запятую и второй строку делаем пустой.

Сохранение в формате SQL

Формат результата:

[% "INSERT INTO sqi VALUES('" _ query _ "', '" _ sqi _ "', '" _ rating _ "')\n" %]

Пример результата:

INSERT INTO sqi VALUES('google.com', '122000', '87')
INSERT INTO sqi VALUES('yandex.ru', 'none', '92')
INSERT INTO sqi VALUES('https://a-parser.com', '200', '')
INSERT INTO sqi VALUES('vk.com', '326000', '73')
INSERT INTO sqi VALUES('facebook.com', '117000', '66')

Дамп результатов в JSON

Общий формат результата:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.sqi = p1.sqi;
obj.rating = p1.rating;

obj.json %]

Начальный текст:

[

Конечный текст:

]

Пример результата:

[{"query":"vk.com","rating":73,"sqi":326000},
{"query":"google.com","rating":87,"sqi":122000},
{"query":"https://a-parser.com","rating":"","sqi":200},
{"query":"yandex.ru","rating":92,"sqi":"none"},
{"query":"facebook.com","rating":66,"sqi":117000}]
подсказка

Чтобы опции "Начальный текст" и "Конечный текст" были доступны в Редакторе заданий, нужно активировать "Больше опций".

Возможные настройки

ПараметрЗначение по умолчаниюОписание
AntiGate presetdefaultВыбор пресета Util::AntiGateUtil::AntiGate, детальнее о настройке тут
AntiGate preset for old captchadefaultАналогично AntiGate preset, но используется только для обычных (старых, в виде одной картинки) каптч. Если здесь не выбран пресет, то для таких каптч будет использоваться пресет, выбраный в AntiGate preset.
Experimental img captcha max count5Максимальное количество повторных капч-картинок на попытку
Preffered captcha typeClickВыбор предпочтительного вида каптчи: Click или Puzzle
Use sessionsCохраняет хорошие сессии что позволяет парсить еще быстрее, получая меньшее число ошибок