Vai al contenuto principale

Costruttore di risultati

Result Builders (Costruttore dei risultati) - consente di trasformare i risultati di ogni scraper prima della loro formattazione e del salvataggio su disco

Funzionalità

  • Divisione del risultato in parti utilizzando un'espressione regolare o un separatore arbitrario
  • Sostituzione di una sottostringa nel risultato o sostituzione tramite espressione regolare
  • Estrazione del dominio o del dominio principale da un link
  • Conversione del risultato in maiuscolo\minuscolo
  • Rimozione dei tag HTML (<b>text</b> -> text)
  • Conversione di entità HTML nei loro equivalenti Unicode (&copy; -> ©)
  • Recupero di dati tramite query XPath
Costruttore dei risultati

Esempi

Scraping di domini

Salvataggio dei soli domini durante lo scraping di link dai motori di ricerca:

Scraping di domini

Come fonte vengono utilizzati gli elementi link dall'array serp del primo scraper; a ogni elemento verrà applicata la funzione di estrazione del dominio principale dal link, il nuovo risultato verrà salvato con lo stesso nome (elemento link nell'array serp) - pertanto non è necessario modificare il formato del risultato

Scraping di snippet con pulizia

Salvataggio di snippet dai motori di ricerca con rimozione dei tag HTML e conversione delle entità HTML

Per impostazione predefinita, anchor e snippet vengono estratti con tutti i tag nidificati, il che consente di mantenere la stessa formattazione visualizzata nei risultati dei motori di ricerca. Se è necessario solo il testo pulito, è possibile utilizzare le funzionalità del Costruttore dei risultati:

Scraping di snippet con pulizia

In questo esempio, agli snippet sono stati applicati in sequenza due Costruttori dei risultati: la rimozione dei tag HTML e la conversione delle entità HTML

Scraping tramite XPath

Scraping di link dai risultati di ricerca tramite XPath:

Scraping tramite XPath

In questo esempio viene mostrato lo scraping di link dal motore di ricerca Google. Viene utilizzata la query XPath:

//*[@id="rso"]/div[3]/div/div[1]/a/@href