HTML::TextExtractor::LangDetect - Rilevamento della lingua della pagina

Panoramica dello scraper

HTML::TextExtractor::LangDetect determina la lingua del sito e la precisione della rilevazione in percentuale. Supporta lo scraping multipagina e la navigazione nelle pagine interne del sito fino alla profondità specificata, consentendo di scansionare tutte le pagine del sito raccogliendo link interni ed esterni. Dispone di strumenti integrati per il bypass della protezione CloudFlare e anche la possibilità di scegliere Chrome come motore per lo scraping delle email dalle pagine i cui dati vengono caricati tramite script. È in grado di raggiungere una velocità fino a 2000 richieste al minuto – ovvero 120 000 link all'ora.

Vai alla DEMO Acquista A-Parser Pro ($299)

Dati raccolti

Determina la lingua del sito
Precisione della rilevazione in %

Funzionalità

Scraping multipagina (navigazione tra le pagine)
Supporta la compressione gzip/deflate/brotli
Rilevamento e conversione delle codifiche dei siti in UTF-8
Bypass della protezione CloudFlare
Scelta del motore (HTTP o Chrome)
Rilevamento della lingua del sito senza l'uso di servizi di terze parti
Precisione della rilevazione in %

Casi d'uso

Selezione di domini con una specifica lingua dei contenuti

Query

Come query è necessario specificare un elenco di siti, ad esempio:

http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/

Esempi di output dei risultati

A-Parser supporta la formattazione flessibile dei risultati grazie al motore di template integrato Template Toolkit, che gli consente di produrre risultati in forma arbitraria o strutturata, come CSV o JSON

Output predefinito

Formato del risultato:

$query: $lang\n

Esempio di risultato:

http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH

Impostazioni possibili

nota

Impostazioni comuni per tutti gli scraper

Nome parametro	Valore predefinito	Descrizione
Good status	`All`	Sceglie quale risposta dal server sarà considerata corretta. Se durante lo scraping viene ricevuta una risposta diversa dal server, la richiesta verrà ripetuta con un altro proxy.
Good code RegEx		Possibilità di specificare un'espressione regolare per verificare il codice di risposta.
Method	`GET`	Metodo della richiesta.
POST body		Contenuto da inviare al server quando si utilizza il metodo POST. Supporta le variabili `$query` – URL della richiesta, `$query.orig` – richiesta originale e `$pagenum` - numero di pagina quando si utilizza l'opzione Use Pages.
Cookies		Possibilità di specificare i cookie per la richiesta.
User agent	`Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)`	Intestazione User-Agent durante la richiesta delle pagine.
Additional headers		Possibilità di specificare intestazioni di richiesta arbitrarie con supporto alle funzionalità del motore di template e all'uso di variabili dal costruttore di query.
Read only headers	`☐`	Leggi solo le intestazioni. In alcuni casi permette di risparmiare traffico se non è necessario elaborare il contenuto.
Detect charset on content	`☐`	Riconoscere la codifica in base al contenuto della pagina.
Emulate browser headers	`☐`	Emula le intestazioni del browser.
Max redirects count	`7`	Numero massimo di reindirizzamenti che lo scraper seguirà.
Max cookies count	`16`	Numero massimo di cookie da salvare.
Bypass CloudFlare	`☑`	Bypass automatico della verifica CloudFlare.
Follow common redirects	`☑`	Consente di effettuare reindirizzamenti http <-> https e www.domain <-> domain all'interno dello stesso dominio bypassando il limite Max redirects count.
Engine	`HTTP (Fast, JavaScript Disabled)`	Consente di scegliere il motore HTTP (più veloce, senza JavaScript) o Chrome (più lento, JavaScript abilitato).
Chrome Headless	`☐`	Se l'opzione è abilitata, il browser non verrà visualizzato.
Chrome DevTools	`☑`	Consente di utilizzare gli strumenti di debug di Chromium.
Chrome Log Proxy connections	`☑`	Se l'opzione è abilitata, le informazioni sulle connessioni chrome verranno visualizzate nel log.
Chrome Wait Until	`networkidle2`	Determina quando la pagina è considerata caricata. Maggiori dettagli sui valori.
Use HTTP/2 transport	`☐`	Determina se utilizzare HTTP/2 invece di HTTP/1.1. Ad esempio, Google e Majestic bannano immediatamente se si utilizza HTTP/1.1.
Bypass CloudFlare with Chrome(Experimental)	`☐`	Bypass di CF tramite Chrome.
Bypass CloudFlare with Chrome Max Pages		Numero massimo di pagine durante il bypass di CF tramite Chrome.

Panoramica dello scraper​

Dati raccolti​

Funzionalità​

Casi d'uso​

Query​

Esempi di output dei risultati​

Output predefinito​

Impostazioni possibili​