HTML::TextExtractor::LangDetect - Taalherkenning van pagina's
Overzicht van de scraper

HTML::TextExtractor::LangDetect bepaalt de taal van de website, evenals de nauwkeurigheid van de bepaling in procenten. Ondersteunt multithreading en navigatie door interne pagina's van de site tot een opgegeven diepte, waardoor alle pagina's van de site kunnen worden doorlopen om interne en externe links te verzamelen. Heeft ingebouwde middelen om de beveiliging te omzeilen van CloudFlare en ook de mogelijkheid om te kiezen voor Chrome als engine voor het scrapen van e-mails van pagina's waarvan de gegevens door scripts worden geladen. Kan snelheden bereiken tot 2000 verzoeken per minuut – dat zijn 120 000 links per uur.Verzamelde gegevens
- Bepaalt de taal van de website
- Nauwkeurigheid van de bepaling in %
Mogelijkheden
- Multipage-gegevensextractie (navigeren door pagina's)
- Ondersteunt compressie gzip/deflate/brotli
- Detectie en conversie van website-coderingen naar UTF-8
- Omzeilen van CloudFlare-beveiliging
- Keuze van engine (HTTP of Chrome)
- Bepaling van de websitetaal zonder gebruik van externe diensten
- Nauwkeurigheid van de bepaling in %
Toepassingen
- Selectie van domeinen met een specifieke taal van de content
Query's
Als query's moet een lijst met websites worden opgegeven, bijvoorbeeld:
http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/
Voorbeelden van resultaatuitvoer
A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een willekeurige vorm kunnen worden uitgevoerd, evenals in gestructureerde formaten zoals CSV of JSON
Standaard uitvoer
Resultaatindeling:
$query: $lang\n
Voorbeeld van resultaat:
http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH
Mogelijke instellingen
| Naam parameter | Standaardwaarde | Beschrijving |
|---|---|---|
| Good status | All | Selectie van welk antwoord van de server als succesvol wordt beschouwd. Als er tijdens de gegevensextractie een ander antwoord van de server komt, wordt de query herhaald met een andere proxy. |
| Good code RegEx | Mogelijkheid om een reguliere expressie op te geven voor het controleren van de antwoordcode. | |
| Method | GET | Verzoekmethode. |
| POST body | Content die naar de server moet worden verzonden bij gebruik van de POST-methode. Ondersteunt variabelen $query – URL van de query, $query.orig – oorspronkelijke query en $pagenum - paginanummer bij gebruik van de optie Use Pages. | |
| Cookies | Mogelijkheid om cookies voor de query op te geven. | |
| User agent | Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) | De User-Agent header bij het opvragen van pagina's. |
| Additional headers | Mogelijkheid om willekeurige verzoekheaders op te geven met ondersteuning voor de mogelijkheden van de sjabloon-engine en het gebruik van variabelen uit de query-builder. | |
| Read only headers | ☐ | Alleen headers lezen. In sommige gevallen bespaart dit verkeer als het niet nodig is om de content te verwerken. |
| Detect charset on content | ☐ | Codering herkennen op basis van de pagina-inhoud. |
| Emulate browser headers | ☐ | Browserheaders emuleren. |
| Max redirects count | 7 | Maximaal aantal redirects dat de scraper zal volgen. |
| Max cookies count | 16 | Maximaal aantal cookies om op te slaan. |
| Bypass CloudFlare | ☑ | Automatische omzeiling van CloudFlare-controle. |
| Follow common redirects | ☑ | Maakt redirects mogelijk tussen http <-> https en www.domain <-> domain binnen hetzelfde domein, buiten de limiet van Max redirects count om. |
| Engine | HTTP (Fast, JavaScript Disabled) | Maakt het mogelijk om de engine te kiezen: HTTP (sneller, zonder JavaScript) of Chrome (langzamer, JavaScript ingeschakeld). |
| Chrome Headless | ☐ | Als deze optie is ingeschakeld, wordt de browser niet weergegeven. |
| Chrome DevTools | ☑ | Maakt het mogelijk om Chromium-debuggingtools te gebruiken. |
| Chrome Log Proxy connections | ☑ | Als deze optie is ingeschakeld, wordt informatie over Chrome-verbindingen in het logboek weergegeven. |
| Chrome Wait Until | networkidle2 | Bepaalt wanneer een pagina als geladen wordt beschouwd. Meer informatie over de waarden. |
| Use HTTP/2 transport | ☐ | Bepaalt of HTTP/2 moet worden gebruikt in plaats van HTTP/1.1. Google en Majestic bannen bijvoorbeeld direct bij gebruik van HTTP/1.1. |
| Bypass CloudFlare with Chrome(Experimental) | ☐ | CF-omzeiling via Chrome. |
| Bypass CloudFlare with Chrome Max Pages | Max. aantal pagina's bij CF-omzeiling via Chrome. |