HTML::TextExtractor::LangDetect - Identifiering av sidspråk

Översikt av scraper

HTML::TextExtractor::LangDetect identifierar webbplatsens språk, samt identifieringsnoggrannheten i procent. Stöder flersidig dataskrapning och navigering till interna sidor på webbplatsen upp till det angivna djupet, vilket gör det möjligt att gå igenom alla sidor på webbplatsen och samla in interna och externa länkar. Har inbyggda verktyg för att kringgå skydd från CloudFlare och även möjligheten att välja Chrome som motor för att skrapa e-postadresser från sidor där data laddas med skript. Kan nå hastigheter upp till 2000 förfrågningar per minut – detta är 120 000 länkar per timme.

Gå till DEMO Köp A-Parser Pro ($299)

Insamlade data

Identifierar webbplatsens språk
Identifieringsnoggrannhet i %

Funktioner

Flersidig dataskrapning (navigering genom sidor)
Stöder komprimering gzip/deflate/brotli
Identifiering och konvertering av webbplatskodning till UTF-8
Kringgå CloudFlare-skydd
Val av motor (HTTP eller Chrome)
Identifiering av webbplatsens språk utan användning av externa tjänster
Identifieringsnoggrannhet i %

Användningsfall

Urval av domäner med ett specifikt språkinnehåll

Frågor

Som frågor måste en lista över webbplatser anges, till exempel:

http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/

Exempel på resultatutdata

A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallhanteraren Template Toolkit, vilket gör det möjligt att mata ut resultat i valfri form, såväl som i strukturerad form, till exempel CSV eller JSON

Standardutdata

Resultatformat:

$query: $lang\n

Exempel på resultat:

http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH

Möjliga inställningar

anteckning

Allmänna inställningar för alla scrapers

Parameternamn	Standardvärde	Beskrivning
Good status	`All`	Val av vilket svar från servern som ska anses vara lyckat. Om det vid dataskrapning kommer ett annat svar från servern, kommer begäran att upprepas med en annan proxy.
Good code RegEx		Möjlighet att ange ett reguljärt uttryck för att kontrollera svarskoden.
Method	`GET`	Begäransmetod.
POST body		Innehåll som ska skickas till servern när POST-metoden används. Stöder variablerna `$query` – begärans URL, `$query.orig` – ursprunglig fråga och `$pagenum` - sidnummer när alternativet Use Pages används.
Cookies		Möjlighet att ange cookies för begäran.
User agent	`Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)`	Headern User-Agent vid begäran av sidor.
Additional headers		Möjlighet att ange godtyckliga begäransheaders med stöd för mallhanterarens funktioner och användning av variabler från frågekonstruktören.
Read only headers	`☐`	Läs endast headers. I vissa fall sparar detta trafik om det inte finns något behov av att bearbeta innehållet.
Detect charset on content	`☐`	Identifiera kodning baserat på sidans innehåll.
Emulate browser headers	`☐`	Emulera webbläsarheaders.
Max redirects count	`7`	Maximalt antal omdirigeringar som scrapern kommer att följa.
Max cookies count	`16`	Maximalt antal cookies som ska sparas.
Bypass CloudFlare	`☑`	Automatiskt kringgående av CloudFlare-kontroll.
Follow common redirects	`☑`	Tillåter omdirigeringar http <-> https och www.domain <-> domain inom samma domän utanför gränsen för Max redirects count.
Engine	`HTTP (Fast, JavaScript Disabled)`	Tillåter val av motor: HTTP (snabbare, utan JavaScript) eller Chrome (långsammare, JavaScript aktiverat).
Chrome Headless	`☐`	Om alternativet är aktiverat kommer webbläsaren inte att visas.
Chrome DevTools	`☑`	Tillåter användning av verktyg för felsökning av Chromium.
Chrome Log Proxy connections	`☑`	Om alternativet är aktiverat kommer information om chrome-anslutningar att visas i loggen.
Chrome Wait Until	`networkidle2`	Definierar när sidan anses vara laddad. Mer information om värdena.
Use HTTP/2 transport	`☐`	Definierar om HTTP/2 ska användas istället för HTTP/1.1. Till exempel blockerar Google och Majestic omedelbart om HTTP/1.1 används.
Bypass CloudFlare with Chrome(Experimental)	`☐`	Kringgå CF via Chrome.
Bypass CloudFlare with Chrome Max Pages		Max antal sidor vid kringgående av CF via Chrome.

Översikt av scraper​

Insamlade data​

Funktioner​

Användningsfall​

Frågor​

Exempel på resultatutdata​

Standardutdata​

Möjliga inställningar​