Hoppa till huvudinnehåll

SE::Dogpile - Scraper för Dogpiles sökresultat

img

Översikt av scrapern

Scraper för sökresultat från Dogpile. Tack vare scrapern SE::Dogpile kan du samla in stora databaser med länkar som är redo för vidare användning. Du kan använda sökfrågor på samma sätt som du skriver in dem i Dogpiles sökfält, inklusive sökoperatorer (url, language, site etc.).

Funktionaliteten i A-Parser gör det möjligt att spara inställningar för Dogpile-scrapern för framtida bruk (förinställningar), schemalägga dataskrapning och mycket mer. Du kan använda automatisk multiplikation av sökfrågor, infoga undersökfrågor från filer, iterera genom alfanumeriska kombinationer och listor för att få högsta möjliga antal resultat.

Resultaten kan sparas i det format och den struktur du behöver, tack vare den inbyggda kraftfulla mallmotorn Template Toolkit som gör det möjligt att tillämpa ytterligare logik på resultaten och exportera data i olika format, inklusive JSON, SQL och CSV.

Data som samlas in

  • Länkar, ankare och snippets från sökresultaten
  • Lista över relaterade sökord (Related keywords)
Data som samlas in

Funktioner

  • Skrapar det maximala antalet resultat som Dogpile tillhandahåller - 50 sidor med 10 objekt per sida
  • Totalt antal resultat - 500
  • Möjlighet att söka efter relaterade sökord

Användningsfall

  • Insamling av länkdatabaser - för A-Poster, XRumer, AllSubmitter etc.
  • Bedömning av konkurrens för sökord
  • Sökning efter backlänkar (omnämnanden) av webbplatser
  • Kontroll av webbplatsers indexering
  • Sökning efter sårbara webbplatser
  • Alla andra scenarier som innebär dataskrapning av Dogpile i någon form

Sökfrågor

Som sökfrågor ska du ange sökfraser på exakt samma sätt som om de skrevs in direkt i Dogpiles sökformulär, till exempel:

test
parser language: ru
site: a-parser.com
site: slideshare.net Java Developer gmail.com resume -sample -samples -example -templates

Substitutioner av sökfrågor

Du kan använda inbyggda makron för att multiplicera sökfrågor, till exempel om vi vill få en mycket stor databas med forum och anger några huvudsakliga sökfrågor på olika språk:

forum
forum
foro
论坛

I formatet för sökfrågor anger vi en iteration av tecken från a till zzzz, denna metod gör det möjligt att rotera sökresultaten maximalt och få många nya unika resultat:

$query {az:a:zzzz}

Detta makro kommer att skapa 475254 ytterligare sökfrågor för varje ursprunglig sökfråga, vilket totalt ger 4 x 475254 = 1901016 sökfrågor. Siffran är imponerande, men det är inga problem för A-Parser. Med en hastighet på 2000 sökfrågor per minut kommer en sådan uppgift att bearbetas på bara 16 timmar.

Användning av operatorer

Du kan använda sökoperatorer i sökfrågeformatet, så att de automatiskt läggs till i varje sökfråga från din lista:

site:$query

Exempel på resultatutdata

A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallmotorn Template Toolkit, vilket gör att den kan exportera resultat i valfri form, samt i strukturerad form som CSV eller JSON

Export av länklista

På samma sätt som i SE::Google.

På samma sätt som i SE::Google.

På samma sätt som i SE::Google.

På samma sätt som i SE::Google.

Kontroll av länkindexering

På samma sätt som i SE::Google.

Spara i SQL-format

På samma sätt som i SE::Google.

Dumpa resultat till JSON

På samma sätt som i SE::Google.

Bearbetning av resultat

A-Parser gör det möjligt att bearbeta resultat direkt under dataskrapningen. I det här avsnittet har vi listat de mest populära fallen för Dogpile-scrapern

På samma sätt som i SE::Google.

På samma sätt som i SE::Google.

Extrahera domäner

På samma sätt som i SE::Google.

Ta bort taggar från ankare och snippets

På samma sätt som i SE::Google.

På samma sätt som i SE::Google.

Möjliga inställningar

ParameternamnStandardvärdeBeskrivning
Pages count10Antal sidor att skrapa (från 1 till 50)
Bypass CloudFlare with ChromeAutomatisk kringgång av CloudFlare-kontroll
Bypass CloudFlare with Chrome Max Pages10Max antal sidor vid kringgång av CF via Chrome
Bypass CloudFlare with Chrome HeadlessOm alternativet är aktiverat kommer webbläsaren inte att visas under kringgång av CF via Chrome