HTML::TextExtractor::LangDetect - Rilevamento della lingua della pagina
Panoramica dello scraper

HTML::TextExtractor::LangDetect determina la lingua del sito e la precisione della rilevazione in percentuale. Supporta lo scraping multipagina e la navigazione nelle pagine interne del sito fino alla profondità specificata, consentendo di scansionare tutte le pagine del sito raccogliendo link interni ed esterni. Dispone di strumenti integrati per il bypass della protezione CloudFlare e anche la possibilità di scegliere Chrome come motore per lo scraping delle email dalle pagine i cui dati vengono caricati tramite script. È in grado di raggiungere una velocità fino a 2000 richieste al minuto – ovvero 120 000 link all'ora.Dati raccolti
- Determina la lingua del sito
- Precisione della rilevazione in %
Funzionalità
- Scraping multipagina (navigazione tra le pagine)
- Supporta la compressione gzip/deflate/brotli
- Rilevamento e conversione delle codifiche dei siti in UTF-8
- Bypass della protezione CloudFlare
- Scelta del motore (HTTP o Chrome)
- Rilevamento della lingua del sito senza l'uso di servizi di terze parti
- Precisione della rilevazione in %
Casi d'uso
- Selezione di domini con una specifica lingua dei contenuti
Query
Come query è necessario specificare un elenco di siti, ad esempio:
http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/
Esempi di output dei risultati
A-Parser supporta la formattazione flessibile dei risultati grazie al motore di template integrato Template Toolkit, che gli consente di produrre risultati in forma arbitraria o strutturata, come CSV o JSON
Output predefinito
Formato del risultato:
$query: $lang\n
Esempio di risultato:
http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH
Impostazioni possibili
| Nome parametro | Valore predefinito | Descrizione |
|---|---|---|
| Good status | All | Sceglie quale risposta dal server sarà considerata corretta. Se durante lo scraping viene ricevuta una risposta diversa dal server, la richiesta verrà ripetuta con un altro proxy. |
| Good code RegEx | Possibilità di specificare un'espressione regolare per verificare il codice di risposta. | |
| Method | GET | Metodo della richiesta. |
| POST body | Contenuto da inviare al server quando si utilizza il metodo POST. Supporta le variabili $query – URL della richiesta, $query.orig – richiesta originale e $pagenum - numero di pagina quando si utilizza l'opzione Use Pages. | |
| Cookies | Possibilità di specificare i cookie per la richiesta. | |
| User agent | Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) | Intestazione User-Agent durante la richiesta delle pagine. |
| Additional headers | Possibilità di specificare intestazioni di richiesta arbitrarie con supporto alle funzionalità del motore di template e all'uso di variabili dal costruttore di query. | |
| Read only headers | ☐ | Leggi solo le intestazioni. In alcuni casi permette di risparmiare traffico se non è necessario elaborare il contenuto. |
| Detect charset on content | ☐ | Riconoscere la codifica in base al contenuto della pagina. |
| Emulate browser headers | ☐ | Emula le intestazioni del browser. |
| Max redirects count | 7 | Numero massimo di reindirizzamenti che lo scraper seguirà. |
| Max cookies count | 16 | Numero massimo di cookie da salvare. |
| Bypass CloudFlare | ☑ | Bypass automatico della verifica CloudFlare. |
| Follow common redirects | ☑ | Consente di effettuare reindirizzamenti http <-> https e www.domain <-> domain all'interno dello stesso dominio bypassando il limite Max redirects count. |
| Engine | HTTP (Fast, JavaScript Disabled) | Consente di scegliere il motore HTTP (più veloce, senza JavaScript) o Chrome (più lento, JavaScript abilitato). |
| Chrome Headless | ☐ | Se l'opzione è abilitata, il browser non verrà visualizzato. |
| Chrome DevTools | ☑ | Consente di utilizzare gli strumenti di debug di Chromium. |
| Chrome Log Proxy connections | ☑ | Se l'opzione è abilitata, le informazioni sulle connessioni chrome verranno visualizzate nel log. |
| Chrome Wait Until | networkidle2 | Determina quando la pagina è considerata caricata. Maggiori dettagli sui valori. |
| Use HTTP/2 transport | ☐ | Determina se utilizzare HTTP/2 invece di HTTP/1.1. Ad esempio, Google e Majestic bannano immediatamente se si utilizza HTTP/1.1. |
| Bypass CloudFlare with Chrome(Experimental) | ☐ | Bypass di CF tramite Chrome. |
| Bypass CloudFlare with Chrome Max Pages | Numero massimo di pagine durante il bypass di CF tramite Chrome. |