Перейти к основному содержимому

Список терминов

Парсер

Парсер - это скрипт, который собирает данные с указанных веб-ресурсов по указанным запросам, обрабатывает их и выводит результат в дефолтном или указанном формате.

Встроенные парсеры

Встроенные парсеры - это предустановленные парсеры, доступные изначально, работоспособность которых поддерживается на постоянной основе.

Кастомные JS парсеры

Кастомные JS парсеры - это парсеры с открытым исходным кодом, написанные на JavaScript и доступные в Редакторе JS парсеров, которые можно экспортировать и импортировать вместе с заданием. Примеры таких парсеров можно найти в Каталоге парсеров и пресетов.

Пресет

Пресет - это и сохраненное задание, которое создаётся в Редакторе заданий путём выбора совокупности парсеров, настроек и опций для выполнения задачи, и настройки отдельного парсера (пресет настроек).

Настройки парсера

Настройки парсера - это опции, которые могут быть отредактированны или изменены (переопределены) для иного алгоритма работы парсера чтобы получить нестандартный результат.

Сохраненное задание

Сохраненное задание - это пресет, который был сохранен и может быть использован повторно.

Конфиг потоков

Конфиг потоков - это совокупность настроек потоков, которую можно сохранить под именем и повторно использовать с разными пресетами.

Потоки

Потоки - это множество одновременно запущенных для парсинга контекстов, в которых парсер параллельно выполняет запросы, перебирает прокси по определенной стратегии, заданной в Конфиге потоков, и логирует процесс выполнения парсинга для каждого запроса.

Проксичекер

Проксичекер - это контролер, который отвечает за загрузку и проверку проксей используя совокупность настроек проксичекера.

Прокси

Прокси - это строка/массив строк определённого формата (или ссылка на строку/массив строк), которая позволяет скрыть реальный IP-адрес путём отправки запросов в парсинге и передачи пакетов с данными от сервера к клиенту с помощью промежуточного прокси-сервера.

Шаблон результата

Шаблон результата - это шаблон, который определяет формат и собираемые данные результата, заданные напрямую или с помощью встроенного шаблонизатора Template Toolkit.