HTML::TextExtractor::LangDetect - Identifiering av sidspråk
Översikt av scraper

HTML::TextExtractor::LangDetect identifierar webbplatsens språk, samt identifieringsnoggrannheten i procent. Stöder flersidig dataskrapning och navigering till interna sidor på webbplatsen upp till det angivna djupet, vilket gör det möjligt att gå igenom alla sidor på webbplatsen och samla in interna och externa länkar. Har inbyggda verktyg för att kringgå skydd från CloudFlare och även möjligheten att välja Chrome som motor för att skrapa e-postadresser från sidor där data laddas med skript. Kan nå hastigheter upp till 2000 förfrågningar per minut – detta är 120 000 länkar per timme.Insamlade data
- Identifierar webbplatsens språk
- Identifieringsnoggrannhet i %
Funktioner
- Flersidig dataskrapning (navigering genom sidor)
- Stöder komprimering gzip/deflate/brotli
- Identifiering och konvertering av webbplatskodning till UTF-8
- Kringgå CloudFlare-skydd
- Val av motor (HTTP eller Chrome)
- Identifiering av webbplatsens språk utan användning av externa tjänster
- Identifieringsnoggrannhet i %
Användningsfall
- Urval av domäner med ett specifikt språkinnehåll
Frågor
Som frågor måste en lista över webbplatser anges, till exempel:
http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/
Exempel på resultatutdata
A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallhanteraren Template Toolkit, vilket gör det möjligt att mata ut resultat i valfri form, såväl som i strukturerad form, till exempel CSV eller JSON
Standardutdata
Resultatformat:
$query: $lang\n
Exempel på resultat:
http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH
Möjliga inställningar
anteckning
| Parameternamn | Standardvärde | Beskrivning |
|---|---|---|
| Good status | All | Val av vilket svar från servern som ska anses vara lyckat. Om det vid dataskrapning kommer ett annat svar från servern, kommer begäran att upprepas med en annan proxy. |
| Good code RegEx | Möjlighet att ange ett reguljärt uttryck för att kontrollera svarskoden. | |
| Method | GET | Begäransmetod. |
| POST body | Innehåll som ska skickas till servern när POST-metoden används. Stöder variablerna $query – begärans URL, $query.orig – ursprunglig fråga och $pagenum - sidnummer när alternativet Use Pages används. | |
| Cookies | Möjlighet att ange cookies för begäran. | |
| User agent | Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) | Headern User-Agent vid begäran av sidor. |
| Additional headers | Möjlighet att ange godtyckliga begäransheaders med stöd för mallhanterarens funktioner och användning av variabler från frågekonstruktören. | |
| Read only headers | ☐ | Läs endast headers. I vissa fall sparar detta trafik om det inte finns något behov av att bearbeta innehållet. |
| Detect charset on content | ☐ | Identifiera kodning baserat på sidans innehåll. |
| Emulate browser headers | ☐ | Emulera webbläsarheaders. |
| Max redirects count | 7 | Maximalt antal omdirigeringar som scrapern kommer att följa. |
| Max cookies count | 16 | Maximalt antal cookies som ska sparas. |
| Bypass CloudFlare | ☑ | Automatiskt kringgående av CloudFlare-kontroll. |
| Follow common redirects | ☑ | Tillåter omdirigeringar http <-> https och www.domain <-> domain inom samma domän utanför gränsen för Max redirects count. |
| Engine | HTTP (Fast, JavaScript Disabled) | Tillåter val av motor: HTTP (snabbare, utan JavaScript) eller Chrome (långsammare, JavaScript aktiverat). |
| Chrome Headless | ☐ | Om alternativet är aktiverat kommer webbläsaren inte att visas. |
| Chrome DevTools | ☑ | Tillåter användning av verktyg för felsökning av Chromium. |
| Chrome Log Proxy connections | ☑ | Om alternativet är aktiverat kommer information om chrome-anslutningar att visas i loggen. |
| Chrome Wait Until | networkidle2 | Definierar när sidan anses vara laddad. Mer information om värdena. |
| Use HTTP/2 transport | ☐ | Definierar om HTTP/2 ska användas istället för HTTP/1.1. Till exempel blockerar Google och Majestic omedelbart om HTTP/1.1 används. |
| Bypass CloudFlare with Chrome(Experimental) | ☐ | Kringgå CF via Chrome. |
| Bypass CloudFlare with Chrome Max Pages | Max antal sidor vid kringgående av CF via Chrome. |