Vai al contenuto principale

Glossario dei termini

Scraper

Uno scraper è uno script che raccoglie dati da risorse web specificate in base a query indicate, li elabora e restituisce il risultato nel formato predefinito o specificato.

Scraper integrati

Gli scraper integrati sono scraper preinstallati, disponibili fin dall'inizio, la cui funzionalità viene mantenuta su base costante.

Scraper JS personalizzati

Gli scraper JS personalizzati sono scraper open source scritti in JavaScript e disponibili nell'Editor di scraper JS, che possono essere esportati e importati insieme a un'attività. Esempi di tali scraper possono essere trovati nel Catalogo di scraper e preset.

Preset

Un preset è sia un'attività salvata, creata nell'Editor di attività selezionando un insieme di scraper, impostazioni e opzioni per eseguire un compito, sia le impostazioni di un singolo scraper (preset di impostazioni).

Impostazioni dello scraper

Le impostazioni dello scraper sono opzioni che possono essere modificate o cambiate (sovrascritte) per un diverso algoritmo di funzionamento dello scraper al fine di ottenere un risultato non standard.

Attività salvata

Un'attività salvata è un preset che è stato salvato e può essere riutilizzato.

Configurazione dei thread

La configurazione dei thread è un insieme di impostazioni dei thread che può essere salvato con un nome e riutilizzato con diversi preset.

Thread

I thread sono molteplici contesti avviati simultaneamente per lo scraping, in cui lo scraper esegue query in parallelo, scorre i proxy secondo una determinata strategia definita nella Configurazione dei thread e registra il processo di esecuzione dello scraping per ogni query.

Proxy checker

Il proxy checker è un controller responsabile del caricamento e della verifica dei proxy, utilizzando un insieme di impostazioni del proxy checker.

Proxy

Un proxy è una stringa/array di stringhe di un formato specifico (o un link a una stringa/array di stringhe) che consente di nascondere l'indirizzo IP reale inviando richieste durante lo scraping e trasferendo pacchetti di dati dal server al client tramite un server proxy intermedio.

Modello del risultato

Il modello del risultato è un modello che definisce il formato e i dati raccolti del risultato, impostati direttamente o tramite il motore di template integrato Template Toolkit.