HTML::TextExtractor - Dataskrapning av innehåll (text) från webbplatser

Översikt av scrapern

HTML::TextExtractor skrapar textblock från den angivna sidan. Denna innehållsscraper stöder flersidig dataskrapning (sidnavigering). Har inbyggda verktyg för att kringgå skydd CloudFlare och även möjlighet att välja Chrome som motor för dataskrapning av innehåll från sidor där data laddas med skript. Kan nå en hastighet på upp till 2000 sökfrågor per minut – det är 120 000 länkar per timme.

Gå till DEMO Köp A-Parser Pro ($299)

Användningsfall för scrapern

Dataskrapning av text via Chrome med lingualeo.com som exempel

Lägg till alternativet Engine, välj motorn Chrome (Slow, JavaScript Enabled) i listan.
Ange länken till webbplatsen som texten ska skrapas från som sökfråga.

anteckning

Detta alternativ kan vara användbart i fall där webbplatsen laddar huvudsaklig text med skript under sidladdningen och när HTTP (Fast, JavaScript Disabled) används blir resultatet tomt eller ofullständigt.

Ladda ner exempel

Hur man importerar ett exempel till A-Parser

eJxtU01v2zAM/S9EDhsQJO1hF9/SYME6pHXXpqcgB8GmXa2ypOkjS2Hkv+/Jce2k
680kHx8fxeeWgvCv/sGx5+Ap27Zku2/KqORKRBVoSlY4zy6Vt/Rjc7fOsg0fwvdD
cKIIxgExYFsKb5bRbfbsnCwZRVkiZl1LnaK9UDEBihdnGqbjbjcljES3XxnXiDR6
Yq9nvY6h+CT2vDEoVlLxmF4huhdNYpyUInCqzqqO6MvXWTgkBlGWMkijhTpNSJuM
U5+1/NMp8sFJXQOP0En2KwhEOnBHkpJv7wq3NOliAk3s+n+deigLLvKUPNSuBLSU
Q6ESyqMiAzuBV8ttkoR8S0YvlFrzntUI6+hvolQlXn5Roem2b/wckv/HcRw2PB+F
s/x10DCwdNFNfjd2lWZtaiyuDdZWspEBsV+aqNNtrpB8ZbbDs90nWGMcD2N65n46
zGVZJw+MV1vYMXWxxsVlLpOF0ZWs895X78ioN3BwrpemsYrTXjoqhat4fhwdsvD9
GVIwCvzYvOxGXHg/GKP8z6eTVOskHPgtCWzwkudTe8pCKPX8uD6v0OgoBC8hWJ/N
5wpWi0KxmRWmmbs4p9QcuDZwFVY77ob/bvg720//vqw94mi//cMJnTZMWOTwVB4X
oez6+A9VbWHX

Dataskrapning av text med sidnavigering med nyheter som exempel

Resultaten sparas i katalogen aparser/results/example/textextractor i en separat fil för varje sökfråga. Som namn anges sökfrågans ordningsnummer.

Lägg till alternativet Check next page, ange (forum\/news\/page-\d+)"[^>]+>Nästa som reguljärt uttryck.
Lägg till alternativet Page as new query.
Ändra File name (Filnamn) till example/textextractor/${query.num}.txt.
Ange länken till den första sidan med A-Parser-nyheter som sökfråga: https://a-parser.com/forum/news/.

Ladda ner exempel

Hur man importerar ett exempel till A-Parser

eJx1VN1v2jAQ/18sHjaVEtjoSx4qUVS0TRRoS58Ik6zkQj0c27UdPhTlf9/ZCQmw
7sXJne/jd7+7c0EsNVuz0GDAGhKuCqL8PwnJ44FmikMYLuFgHw9W09hKHYYzFBd0
A6RLFNUGtPNbkR/Lp+mVLVokkNKcW9ItiD0qwLBSWSaFwTuWoBi/Q7w9C7mjPHdm
X1Kp8yyKAgF7gx+F17dRlNx8jcjq9/365j7K+8PBN3d+T/15585h3513A68ZYkCa
JMxlpJyExWW6KcuYq7RPyvK/AF3ikZnB/jkHfWwRWp3DdfQtgPJmU9gBavpluV53
CTKKHJiJ1Bl1+Tpq0Ktpbi5f6Q6WEi9TxqFVT1Ca0czhgqofgUX0cKI46BQfLmFP
5FnZswd7UXGV0fWnRfEm2IdnWEi0dc4MzETLDFUubq08ntCuSMfLBEPk3ve58iFh
SrlBDgxCn1AEmlzfMAuaIsp5TSlSJMWIc09Pa+bjP+SMJzhMoxSdftaOn5vM/4lR
NuWdp9qB3mvE0ETx0sP8qfVK5FRuTmRwNw8om7HMRTUYXd/ThrOZM8ukhiZNHbnO
joukQLixaVs4Uq3qooyLtlwqYylStpljAZolcLLMxRK3dS7G0g2Cq0vknGNbDLy0
4zIydRuc0AK8dh77FAirWVFipeTm12sFVWmG43jnAGbI5HnWOmRMOX97mZ7fkHak
UHi3VpkwCOht9VD0YpkFfq/9VgfExbCwkThdWGG5bl6U5kEqPn1XwgIXlvwxi8ra
FepsUYeMGWwMCQflX6y1tO0=

Insamlade data

Skrapar textblock från den angivna sidan
Array med alla insamlade sidor (används när alternativet Use Pages är aktiverat)

Funktioner

Flersidig dataskrapning av text (sidnavigering)
Automatisk rensning av text från HTML-taggar
Möjlighet att ställa in minsta längd för ett textblock
Valfri borttagning av länkankare från texten
Stöder komprimering med gzip/deflate/brotli
Identifiering och konvertering av webbplatsers kodning till UTF-8
Kringgående av CloudFlare-skydd
Val av motor (HTTP eller Chrome)

Användningsområden

Dataskrapning av textinnehåll från vilka webbplatser som helst

Sökfrågor

Som sökfrågor måste länkar till de sidor som textblocken ska skrapas från anges, till exempel:

https://a-parser.com/

Exempel på resultatutmatning

A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallmotorn Template Toolkit, vilket gör det möjligt att mata ut resultat i valfri form, såväl som i strukturerad form, till exempel CSV eller JSON

Standardutmatning

Resultatformat:

$texts.format('$text\n')

Exempel på resultat:

Hej, Superteamet av de främsta proffsen inom sitt område! Tack för möjligheten att studera spanska, turkiska och portugisiska! Jag önskar er ytterligare expansion av era möjligheter! Inspiration och kreativitet! Och en begäran om att lägga till möjligheten att studera tyska och franska!”
Jag har använt Lingualeo i många år, började första gången när appen inte fanns alls, det fanns bara en webbplats) Tack till utvecklarna, fortsätt i samma anda, med kreativitet och stor kärlek till arbetet)
Teknisk engelska för IT: ordböcker, läroböcker, tidskrifter
Lär dig språk online Lär dig engelska online Lär dig vietnamesiska online Lär dig grekiska online Lär dig indonesiska online Lär dig spanska online Lär dig italienska online Lär dig kinesiska online Lär dig koreanska online Lär dig tyska online Lär dig nederländska online Lär dig polska online Lär dig portugisiska online Lär dig serbiska online Lär dig turkiska online Lär dig ukrainska online Lär dig franska online Lär dig hindi online Lär dig tjeckiska online Lär dig japanska online

Möjliga inställningar

anteckning

Allmänna inställningar för alla scrapers

Namn på parameter	Standardvärde	Beskrivning
Min block length	`50`	Minsta längd på textblock i tecken.
Skip anchor text	`☐`	Om ankare i texten ska hoppas över.
Ignore tags list		Alternativ för att ange taggar som ska ignoreras. Exempel på angivelse: div,span,p
Good status	`All`	Val av vilket svar från servern som ska anses vara lyckat. Om ett annat svar erhålls vid dataskrapning kommer sökfrågan att upprepas med en annan proxy.
Good code RegEx		Möjlighet att ange ett reguljärt uttryck för att kontrollera svarskoden.
Method	`GET`	Metod för sökfrågan.
POST body		Innehåll som ska skickas till servern när POST-metoden används. Stöder variablerna `$query` – sökfrågans URL, `$query.orig` – ursprunglig sökfråga och `$pagenum` - sidnummer när alternativet Use Pages används.
Cookies		Möjlighet att ange cookies för sökfrågan.
User agent	``_Automatiskt infogas user-agent för den aktuella versionen av Chrome_`	Headern User-Agent vid begäran av sidor.
Additional headers		Möjlighet att ange godtyckliga sökfrågeheaders med stöd för mallmotorns funktioner och användning av variabler från sökfrågebyggaren.
Read only headers	`☐`	Läs endast headers. I vissa fall sparar detta trafik om det inte finns behov av att bearbeta innehållet.
Detect charset on content	`☐`	Identifiera kodning baserat på sidans innehåll.
Emulate browser headers	`☐`	Emulera webbläsarheaders.
Max redirects count	`7`	Maximalt antal omdirigeringar som scrapern kommer att följa.
Max cookies count	`16`	Maximalt antal cookies att spara.
Bypass CloudFlare	`☑`	Automatiskt kringgående av CloudFlare-kontroll.
Follow common redirects	`☑`	Tillåter omdirigeringar http <-> https och www.domain <-> domain inom samma domän, förbi gränsen för Max redirects count.
Engine	`HTTP (Fast, JavaScript Disabled)`	Tillåter val av motor: HTTP (snabbare, utan JavaScript) eller Chrome (långsammare, JavaScript aktiverat).
Chrome Headless	`☐`	Om alternativet är aktiverat kommer webbläsaren inte att visas.
Chrome DevTools	`☑`	Tillåter användning av verktyg för Chromium-felsökning.
Chrome Log Proxy connections	`☑`	Om alternativet är aktiverat kommer information om Chrome-anslutningar att visas i loggen.
Chrome Wait Until	`networkidle2`	Definierar när sidan anses vara laddad. Mer om värdena.
Use HTTP/2 transport	`☐`	Definierar om HTTP/2 ska användas istället för HTTP/1.1. Till exempel bannlyser Google och Majestic omedelbart om HTTP/1.1 används.
Bypass CloudFlare with Chrome(Experimental)	`☐`	Kringgående av CF via Chrome.
Bypass CloudFlare with Chrome Max Pages		Max antal sidor vid kringgående av CF via Chrome.

Översikt av scrapern​

Användningsfall för scrapern​

Dataskrapning av text via Chrome med lingualeo.com som exempel​

Dataskrapning av text med sidnavigering med nyheter som exempel​

Insamlade data​

Funktioner​

Användningsområden​

Sökfrågor​

Exempel på resultatutmatning​

Standardutmatning​

Möjliga inställningar​