Vai al contenuto principale

HTML::TextExtractor::LangDetect - Rilevamento della lingua della pagina

Panoramica dello scraper

Panoramica dello scraperHTML::TextExtractor::LangDetectHTML::TextExtractor::LangDetect determina la lingua del sito e la precisione della rilevazione in percentuale. Supporta lo scraping multipagina e la navigazione nelle pagine interne del sito fino alla profondità specificata, consentendo di scansionare tutte le pagine del sito raccogliendo link interni ed esterni. Dispone di strumenti integrati per il bypass della protezione CloudFlare e anche la possibilità di scegliere Chrome come motore per lo scraping delle email dalle pagine i cui dati vengono caricati tramite script. È in grado di raggiungere una velocità fino a 2000 richieste al minuto – ovvero 120 000 link all'ora.

Dati raccolti

  • Determina la lingua del sito
  • Precisione della rilevazione in %

Funzionalità

  • Scraping multipagina (navigazione tra le pagine)
  • Supporta la compressione gzip/deflate/brotli
  • Rilevamento e conversione delle codifiche dei siti in UTF-8
  • Bypass della protezione CloudFlare
  • Scelta del motore (HTTP o Chrome)
  • Rilevamento della lingua del sito senza l'uso di servizi di terze parti
  • Precisione della rilevazione in %

Casi d'uso

  • Selezione di domini con una specifica lingua dei contenuti

Query

Come query è necessario specificare un elenco di siti, ad esempio:

http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/

Esempi di output dei risultati

A-Parser supporta la formattazione flessibile dei risultati grazie al motore di template integrato Template Toolkit, che gli consente di produrre risultati in forma arbitraria o strutturata, come CSV o JSON

Output predefinito

Formato del risultato:

$query: $lang\n

Esempio di risultato:

http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH

Impostazioni possibili

Nome parametroValore predefinitoDescrizione
Good statusAllSceglie quale risposta dal server sarà considerata corretta. Se durante lo scraping viene ricevuta una risposta diversa dal server, la richiesta verrà ripetuta con un altro proxy.
Good code RegExPossibilità di specificare un'espressione regolare per verificare il codice di risposta.
MethodGETMetodo della richiesta.
POST bodyContenuto da inviare al server quando si utilizza il metodo POST. Supporta le variabili $query – URL della richiesta, $query.orig – richiesta originale e $pagenum - numero di pagina quando si utilizza l'opzione Use Pages.
CookiesPossibilità di specificare i cookie per la richiesta.
User agentMozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)Intestazione User-Agent durante la richiesta delle pagine.
Additional headersPossibilità di specificare intestazioni di richiesta arbitrarie con supporto alle funzionalità del motore di template e all'uso di variabili dal costruttore di query.
Read only headersLeggi solo le intestazioni. In alcuni casi permette di risparmiare traffico se non è necessario elaborare il contenuto.
Detect charset on contentRiconoscere la codifica in base al contenuto della pagina.
Emulate browser headersEmula le intestazioni del browser.
Max redirects count7Numero massimo di reindirizzamenti che lo scraper seguirà.
Max cookies count16Numero massimo di cookie da salvare.
Bypass CloudFlareBypass automatico della verifica CloudFlare.
Follow common redirectsConsente di effettuare reindirizzamenti http <-> https e www.domain <-> domain all'interno dello stesso dominio bypassando il limite Max redirects count.
EngineHTTP (Fast, JavaScript Disabled)Consente di scegliere il motore HTTP (più veloce, senza JavaScript) o Chrome (più lento, JavaScript abilitato).
Chrome HeadlessSe l'opzione è abilitata, il browser non verrà visualizzato.
Chrome DevToolsConsente di utilizzare gli strumenti di debug di Chromium.
Chrome Log Proxy connectionsSe l'opzione è abilitata, le informazioni sulle connessioni chrome verranno visualizzate nel log.
Chrome Wait Untilnetworkidle2Determina quando la pagina è considerata caricata. Maggiori dettagli sui valori.
Use HTTP/2 transportDetermina se utilizzare HTTP/2 invece di HTTP/1.1. Ad esempio, Google e Majestic bannano immediatamente se si utilizza HTTP/1.1.
Bypass CloudFlare with Chrome(Experimental)Bypass di CF tramite Chrome.
Bypass CloudFlare with Chrome Max PagesNumero massimo di pagine durante il bypass di CF tramite Chrome.