Hoppa till huvudinnehåll

HTML::TextExtractor::LangDetect - Identifiering av sidspråk

Översikt av scraper

Översikt av scraperHTML::TextExtractor::LangDetectHTML::TextExtractor::LangDetect identifierar webbplatsens språk, samt identifieringsnoggrannheten i procent. Stöder flersidig dataskrapning och navigering till interna sidor på webbplatsen upp till det angivna djupet, vilket gör det möjligt att gå igenom alla sidor på webbplatsen och samla in interna och externa länkar. Har inbyggda verktyg för att kringgå skydd från CloudFlare och även möjligheten att välja Chrome som motor för att skrapa e-postadresser från sidor där data laddas med skript. Kan nå hastigheter upp till 2000 förfrågningar per minut – detta är 120 000 länkar per timme.

Insamlade data

  • Identifierar webbplatsens språk
  • Identifieringsnoggrannhet i %

Funktioner

  • Flersidig dataskrapning (navigering genom sidor)
  • Stöder komprimering gzip/deflate/brotli
  • Identifiering och konvertering av webbplatskodning till UTF-8
  • Kringgå CloudFlare-skydd
  • Val av motor (HTTP eller Chrome)
  • Identifiering av webbplatsens språk utan användning av externa tjänster
  • Identifieringsnoggrannhet i %

Användningsfall

  • Urval av domäner med ett specifikt språkinnehåll

Frågor

Som frågor måste en lista över webbplatser anges, till exempel:

http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/

Exempel på resultatutdata

A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallhanteraren Template Toolkit, vilket gör det möjligt att mata ut resultat i valfri form, såväl som i strukturerad form, till exempel CSV eller JSON

Standardutdata

Resultatformat:

$query: $lang\n

Exempel på resultat:

http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH

Möjliga inställningar

ParameternamnStandardvärdeBeskrivning
Good statusAllVal av vilket svar från servern som ska anses vara lyckat. Om det vid dataskrapning kommer ett annat svar från servern, kommer begäran att upprepas med en annan proxy.
Good code RegExMöjlighet att ange ett reguljärt uttryck för att kontrollera svarskoden.
MethodGETBegäransmetod.
POST bodyInnehåll som ska skickas till servern när POST-metoden används. Stöder variablerna $query – begärans URL, $query.orig – ursprunglig fråga och $pagenum - sidnummer när alternativet Use Pages används.
CookiesMöjlighet att ange cookies för begäran.
User agentMozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)Headern User-Agent vid begäran av sidor.
Additional headersMöjlighet att ange godtyckliga begäransheaders med stöd för mallhanterarens funktioner och användning av variabler från frågekonstruktören.
Read only headersLäs endast headers. I vissa fall sparar detta trafik om det inte finns något behov av att bearbeta innehållet.
Detect charset on contentIdentifiera kodning baserat på sidans innehåll.
Emulate browser headersEmulera webbläsarheaders.
Max redirects count7Maximalt antal omdirigeringar som scrapern kommer att följa.
Max cookies count16Maximalt antal cookies som ska sparas.
Bypass CloudFlareAutomatiskt kringgående av CloudFlare-kontroll.
Follow common redirectsTillåter omdirigeringar http <-> https och www.domain <-> domain inom samma domän utanför gränsen för Max redirects count.
EngineHTTP (Fast, JavaScript Disabled)Tillåter val av motor: HTTP (snabbare, utan JavaScript) eller Chrome (långsammare, JavaScript aktiverat).
Chrome HeadlessOm alternativet är aktiverat kommer webbläsaren inte att visas.
Chrome DevToolsTillåter användning av verktyg för felsökning av Chromium.
Chrome Log Proxy connectionsOm alternativet är aktiverat kommer information om chrome-anslutningar att visas i loggen.
Chrome Wait Untilnetworkidle2Definierar när sidan anses vara laddad. Mer information om värdena.
Use HTTP/2 transportDefinierar om HTTP/2 ska användas istället för HTTP/1.1. Till exempel blockerar Google och Majestic omedelbart om HTTP/1.1 används.
Bypass CloudFlare with Chrome(Experimental)Kringgå CF via Chrome.
Bypass CloudFlare with Chrome Max PagesMax antal sidor vid kringgående av CF via Chrome.