Ga naar de hoofdinhoud

HTML::TextExtractor::LangDetect - Taalherkenning van pagina's

Overzicht van de scraper

Overzicht van de scraperHTML::TextExtractor::LangDetectHTML::TextExtractor::LangDetect bepaalt de taal van de website, evenals de nauwkeurigheid van de bepaling in procenten. Ondersteunt multithreading en navigatie door interne pagina's van de site tot een opgegeven diepte, waardoor alle pagina's van de site kunnen worden doorlopen om interne en externe links te verzamelen. Heeft ingebouwde middelen om de beveiliging te omzeilen van CloudFlare en ook de mogelijkheid om te kiezen voor Chrome als engine voor het scrapen van e-mails van pagina's waarvan de gegevens door scripts worden geladen. Kan snelheden bereiken tot 2000 verzoeken per minuut – dat zijn 120 000 links per uur.

Verzamelde gegevens

  • Bepaalt de taal van de website
  • Nauwkeurigheid van de bepaling in %

Mogelijkheden

  • Multipage-gegevensextractie (navigeren door pagina's)
  • Ondersteunt compressie gzip/deflate/brotli
  • Detectie en conversie van website-coderingen naar UTF-8
  • Omzeilen van CloudFlare-beveiliging
  • Keuze van engine (HTTP of Chrome)
  • Bepaling van de websitetaal zonder gebruik van externe diensten
  • Nauwkeurigheid van de bepaling in %

Toepassingen

  • Selectie van domeinen met een specifieke taal van de content

Query's

Als query's moet een lijst met websites worden opgegeven, bijvoorbeeld:

http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/

Voorbeelden van resultaatuitvoer

A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een willekeurige vorm kunnen worden uitgevoerd, evenals in gestructureerde formaten zoals CSV of JSON

Standaard uitvoer

Resultaatindeling:

$query: $lang\n

Voorbeeld van resultaat:

http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH

Mogelijke instellingen

Naam parameterStandaardwaardeBeschrijving
Good statusAllSelectie van welk antwoord van de server als succesvol wordt beschouwd. Als er tijdens de gegevensextractie een ander antwoord van de server komt, wordt de query herhaald met een andere proxy.
Good code RegExMogelijkheid om een reguliere expressie op te geven voor het controleren van de antwoordcode.
MethodGETVerzoekmethode.
POST bodyContent die naar de server moet worden verzonden bij gebruik van de POST-methode. Ondersteunt variabelen $query – URL van de query, $query.orig – oorspronkelijke query en $pagenum - paginanummer bij gebruik van de optie Use Pages.
CookiesMogelijkheid om cookies voor de query op te geven.
User agentMozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)De User-Agent header bij het opvragen van pagina's.
Additional headersMogelijkheid om willekeurige verzoekheaders op te geven met ondersteuning voor de mogelijkheden van de sjabloon-engine en het gebruik van variabelen uit de query-builder.
Read only headersAlleen headers lezen. In sommige gevallen bespaart dit verkeer als het niet nodig is om de content te verwerken.
Detect charset on contentCodering herkennen op basis van de pagina-inhoud.
Emulate browser headersBrowserheaders emuleren.
Max redirects count7Maximaal aantal redirects dat de scraper zal volgen.
Max cookies count16Maximaal aantal cookies om op te slaan.
Bypass CloudFlareAutomatische omzeiling van CloudFlare-controle.
Follow common redirectsMaakt redirects mogelijk tussen http <-> https en www.domain <-> domain binnen hetzelfde domein, buiten de limiet van Max redirects count om.
EngineHTTP (Fast, JavaScript Disabled)Maakt het mogelijk om de engine te kiezen: HTTP (sneller, zonder JavaScript) of Chrome (langzamer, JavaScript ingeschakeld).
Chrome HeadlessAls deze optie is ingeschakeld, wordt de browser niet weergegeven.
Chrome DevToolsMaakt het mogelijk om Chromium-debuggingtools te gebruiken.
Chrome Log Proxy connectionsAls deze optie is ingeschakeld, wordt informatie over Chrome-verbindingen in het logboek weergegeven.
Chrome Wait Untilnetworkidle2Bepaalt wanneer een pagina als geladen wordt beschouwd. Meer informatie over de waarden.
Use HTTP/2 transportBepaalt of HTTP/2 moet worden gebruikt in plaats van HTTP/1.1. Google en Majestic bannen bijvoorbeeld direct bij gebruik van HTTP/1.1.
Bypass CloudFlare with Chrome(Experimental)CF-omzeiling via Chrome.
Bypass CloudFlare with Chrome Max PagesMax. aantal pagina's bij CF-omzeiling via Chrome.