Hoppa till huvudinnehåll

HTML::TextExtractor - Dataskrapning av innehåll (text) från webbplatser

Översikt av scrapern

Översikt av scrapernHTML::TextExtractorHTML::TextExtractor skrapar textblock från den angivna sidan. Denna innehållsscraper stöder flersidig dataskrapning (sidnavigering). Har inbyggda verktyg för att kringgå skydd CloudFlare och även möjlighet att välja Chrome som motor för dataskrapning av innehåll från sidor där data laddas med skript. Kan nå en hastighet på upp till 2000 sökfrågor per minut – det är 120 000 länkar per timme.

Användningsfall för scrapern

Dataskrapning av text via Chrome med lingualeo.com som exempel

Dataskrapning av text via Chrome med lingualeo.com som exempel
  1. Lägg till alternativet Engine, välj motorn Chrome (Slow, JavaScript Enabled) i listan.
  2. Ange länken till webbplatsen som texten ska skrapas från som sökfråga.
anteckning

Detta alternativ kan vara användbart i fall där webbplatsen laddar huvudsaklig text med skript under sidladdningen och när HTTP (Fast, JavaScript Disabled) används blir resultatet tomt eller ofullständigt.

Ladda ner exempel

Hur man importerar ett exempel till A-Parser

eJxtU01v2zAM/S9EDhsQJO1hF9/SYME6pHXXpqcgB8GmXa2ypOkjS2Hkv+/Jce2k
680kHx8fxeeWgvCv/sGx5+Ap27Zku2/KqORKRBVoSlY4zy6Vt/Rjc7fOsg0fwvdD
cKIIxgExYFsKb5bRbfbsnCwZRVkiZl1LnaK9UDEBihdnGqbjbjcljES3XxnXiDR6
Yq9nvY6h+CT2vDEoVlLxmF4huhdNYpyUInCqzqqO6MvXWTgkBlGWMkijhTpNSJuM
U5+1/NMp8sFJXQOP0En2KwhEOnBHkpJv7wq3NOliAk3s+n+deigLLvKUPNSuBLSU
Q6ESyqMiAzuBV8ttkoR8S0YvlFrzntUI6+hvolQlXn5Roem2b/wckv/HcRw2PB+F
s/x10DCwdNFNfjd2lWZtaiyuDdZWspEBsV+aqNNtrpB8ZbbDs90nWGMcD2N65n46
zGVZJw+MV1vYMXWxxsVlLpOF0ZWs895X78ioN3BwrpemsYrTXjoqhat4fhwdsvD9
GVIwCvzYvOxGXHg/GKP8z6eTVOskHPgtCWzwkudTe8pCKPX8uD6v0OgoBC8hWJ/N
5wpWi0KxmRWmmbs4p9QcuDZwFVY77ob/bvg720//vqw94mi//cMJnTZMWOTwVB4X
oez6+A9VbWHX

Dataskrapning av text med sidnavigering med nyheter som exempel

Dataskrapning av text med sidnavigering med nyheter som exempel

Resultaten sparas i katalogen aparser/results/example/textextractor i en separat fil för varje sökfråga. Som namn anges sökfrågans ordningsnummer.

  1. Lägg till alternativet Check next page, ange (forum\/news\/page-\d+)"[^>]+>Nästa som reguljärt uttryck.
  2. Lägg till alternativet Page as new query.
  3. Ändra File name (Filnamn) till example/textextractor/${query.num}.txt.
  4. Ange länken till den första sidan med A-Parser-nyheter som sökfråga: https://a-parser.com/forum/news/.
Ladda ner exempel

Hur man importerar ett exempel till A-Parser

eJx1VN1v2jAQ/18sHjaVEtjoSx4qUVS0TRRoS58Ik6zkQj0c27UdPhTlf9/ZCQmw
7sXJne/jd7+7c0EsNVuz0GDAGhKuCqL8PwnJ44FmikMYLuFgHw9W09hKHYYzFBd0
A6RLFNUGtPNbkR/Lp+mVLVokkNKcW9ItiD0qwLBSWSaFwTuWoBi/Q7w9C7mjPHdm
X1Kp8yyKAgF7gx+F17dRlNx8jcjq9/365j7K+8PBN3d+T/15585h3513A68ZYkCa
JMxlpJyExWW6KcuYq7RPyvK/AF3ikZnB/jkHfWwRWp3DdfQtgPJmU9gBavpluV53
CTKKHJiJ1Bl1+Tpq0Ktpbi5f6Q6WEi9TxqFVT1Ca0czhgqofgUX0cKI46BQfLmFP
5FnZswd7UXGV0fWnRfEm2IdnWEi0dc4MzETLDFUubq08ntCuSMfLBEPk3ve58iFh
SrlBDgxCn1AEmlzfMAuaIsp5TSlSJMWIc09Pa+bjP+SMJzhMoxSdftaOn5vM/4lR
NuWdp9qB3mvE0ETx0sP8qfVK5FRuTmRwNw8om7HMRTUYXd/ThrOZM8ukhiZNHbnO
joukQLixaVs4Uq3qooyLtlwqYylStpljAZolcLLMxRK3dS7G0g2Cq0vknGNbDLy0
4zIydRuc0AK8dh77FAirWVFipeTm12sFVWmG43jnAGbI5HnWOmRMOX97mZ7fkHak
UHi3VpkwCOht9VD0YpkFfq/9VgfExbCwkThdWGG5bl6U5kEqPn1XwgIXlvwxi8ra
FepsUYeMGWwMCQflX6y1tO0=

Insamlade data

  • Skrapar textblock från den angivna sidan
  • Array med alla insamlade sidor (används när alternativet Use Pages är aktiverat)

Funktioner

  • Flersidig dataskrapning av text (sidnavigering)
  • Automatisk rensning av text från HTML-taggar
  • Möjlighet att ställa in minsta längd för ett textblock
  • Valfri borttagning av länkankare från texten
  • Stöder komprimering med gzip/deflate/brotli
  • Identifiering och konvertering av webbplatsers kodning till UTF-8
  • Kringgående av CloudFlare-skydd
  • Val av motor (HTTP eller Chrome)

Användningsområden

  • Dataskrapning av textinnehåll från vilka webbplatser som helst

Sökfrågor

Som sökfrågor måste länkar till de sidor som textblocken ska skrapas från anges, till exempel:

https://a-parser.com/

Exempel på resultatutmatning

A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallmotorn Template Toolkit, vilket gör det möjligt att mata ut resultat i valfri form, såväl som i strukturerad form, till exempel CSV eller JSON

Standardutmatning

Resultatformat:

$texts.format('$text\n')

Exempel på resultat:

Hej, Superteamet av de främsta proffsen inom sitt område! Tack för möjligheten att studera spanska, turkiska och portugisiska! Jag önskar er ytterligare expansion av era möjligheter! Inspiration och kreativitet! Och en begäran om att lägga till möjligheten att studera tyska och franska!”
Jag har använt Lingualeo i många år, började första gången när appen inte fanns alls, det fanns bara en webbplats) Tack till utvecklarna, fortsätt i samma anda, med kreativitet och stor kärlek till arbetet)
Teknisk engelska för IT: ordböcker, läroböcker, tidskrifter
Lär dig språk online Lär dig engelska online Lär dig vietnamesiska online Lär dig grekiska online Lär dig indonesiska online Lär dig spanska online Lär dig italienska online Lär dig kinesiska online Lär dig koreanska online Lär dig tyska online Lär dig nederländska online Lär dig polska online Lär dig portugisiska online Lär dig serbiska online Lär dig turkiska online Lär dig ukrainska online Lär dig franska online Lär dig hindi online Lär dig tjeckiska online Lär dig japanska online

Möjliga inställningar

Namn på parameterStandardvärdeBeskrivning
Min block length50Minsta längd på textblock i tecken.
Skip anchor textOm ankare i texten ska hoppas över.
Ignore tags listAlternativ för att ange taggar som ska ignoreras. Exempel på angivelse: div,span,p
Good statusAllVal av vilket svar från servern som ska anses vara lyckat. Om ett annat svar erhålls vid dataskrapning kommer sökfrågan att upprepas med en annan proxy.
Good code RegExMöjlighet att ange ett reguljärt uttryck för att kontrollera svarskoden.
MethodGETMetod för sökfrågan.
POST bodyInnehåll som ska skickas till servern när POST-metoden används. Stöder variablerna $query – sökfrågans URL, $query.orig – ursprunglig sökfråga och $pagenum - sidnummer när alternativet Use Pages används.
CookiesMöjlighet att ange cookies för sökfrågan.
User agent`_Automatiskt infogas user-agent för den aktuella versionen av Chrome_Headern User-Agent vid begäran av sidor.
Additional headersMöjlighet att ange godtyckliga sökfrågeheaders med stöd för mallmotorns funktioner och användning av variabler från sökfrågebyggaren.
Read only headersLäs endast headers. I vissa fall sparar detta trafik om det inte finns behov av att bearbeta innehållet.
Detect charset on contentIdentifiera kodning baserat på sidans innehåll.
Emulate browser headersEmulera webbläsarheaders.
Max redirects count7Maximalt antal omdirigeringar som scrapern kommer att följa.
Max cookies count16Maximalt antal cookies att spara.
Bypass CloudFlareAutomatiskt kringgående av CloudFlare-kontroll.
Follow common redirectsTillåter omdirigeringar http <-> https och www.domain <-> domain inom samma domän, förbi gränsen för Max redirects count.
EngineHTTP (Fast, JavaScript Disabled)Tillåter val av motor: HTTP (snabbare, utan JavaScript) eller Chrome (långsammare, JavaScript aktiverat).
Chrome HeadlessOm alternativet är aktiverat kommer webbläsaren inte att visas.
Chrome DevToolsTillåter användning av verktyg för Chromium-felsökning.
Chrome Log Proxy connectionsOm alternativet är aktiverat kommer information om Chrome-anslutningar att visas i loggen.
Chrome Wait Untilnetworkidle2Definierar när sidan anses vara laddad. Mer om värdena.
Use HTTP/2 transportDefinierar om HTTP/2 ska användas istället för HTTP/1.1. Till exempel bannlyser Google och Majestic omedelbart om HTTP/1.1 används.
Bypass CloudFlare with Chrome(Experimental)Kringgående av CF via Chrome.
Bypass CloudFlare with Chrome Max PagesMax antal sidor vid kringgående av CF via Chrome.