SE::Dogpile - Scraper för Dogpiles sökresultat

Översikt av scrapern
Scraper för sökresultat från Dogpile. Tack vare scrapern SE::Dogpile kan du samla in stora databaser med länkar som är redo för vidare användning. Du kan använda sökfrågor på samma sätt som du skriver in dem i Dogpiles sökfält, inklusive sökoperatorer (url, language, site etc.).
Funktionaliteten i A-Parser gör det möjligt att spara inställningar för Dogpile-scrapern för framtida bruk (förinställningar), schemalägga dataskrapning och mycket mer. Du kan använda automatisk multiplikation av sökfrågor, infoga undersökfrågor från filer, iterera genom alfanumeriska kombinationer och listor för att få högsta möjliga antal resultat.
Resultaten kan sparas i det format och den struktur du behöver, tack vare den inbyggda kraftfulla mallmotorn Template Toolkit som gör det möjligt att tillämpa ytterligare logik på resultaten och exportera data i olika format, inklusive JSON, SQL och CSV.
Data som samlas in
- Länkar, ankare och snippets från sökresultaten
- Lista över relaterade sökord (Related keywords)

Funktioner
- Skrapar det maximala antalet resultat som Dogpile tillhandahåller - 50 sidor med 10 objekt per sida
- Totalt antal resultat - 500
- Möjlighet att söka efter relaterade sökord
Användningsfall
- Insamling av länkdatabaser - för A-Poster, XRumer, AllSubmitter etc.
- Bedömning av konkurrens för sökord
- Sökning efter backlänkar (omnämnanden) av webbplatser
- Kontroll av webbplatsers indexering
- Sökning efter sårbara webbplatser
- Alla andra scenarier som innebär dataskrapning av Dogpile i någon form
Sökfrågor
Som sökfrågor ska du ange sökfraser på exakt samma sätt som om de skrevs in direkt i Dogpiles sökformulär, till exempel:
test
parser language: ru
site: a-parser.com
site: slideshare.net Java Developer gmail.com resume -sample -samples -example -templates
Substitutioner av sökfrågor
Du kan använda inbyggda makron för att multiplicera sökfrågor, till exempel om vi vill få en mycket stor databas med forum och anger några huvudsakliga sökfrågor på olika språk:
forum
forum
foro
论坛
I formatet för sökfrågor anger vi en iteration av tecken från a till zzzz, denna metod gör det möjligt att rotera sökresultaten maximalt och få många nya unika resultat:
$query {az:a:zzzz}
Detta makro kommer att skapa 475254 ytterligare sökfrågor för varje ursprunglig sökfråga, vilket totalt ger 4 x 475254 = 1901016 sökfrågor. Siffran är imponerande, men det är inga problem för A-Parser. Med en hastighet på 2000 sökfrågor per minut kommer en sådan uppgift att bearbetas på bara 16 timmar.
Användning av operatorer
Du kan använda sökoperatorer i sökfrågeformatet, så att de automatiskt läggs till i varje sökfråga från din lista:
site:$query
Exempel på resultatutdata
A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallmotorn Template Toolkit, vilket gör att den kan exportera resultat i valfri form, samt i strukturerad form som CSV eller JSON
Export av länklista
På samma sätt som i SE::Google.
Länkar + ankare + snippets med position
På samma sätt som i SE::Google.
Utdata av länkar, ankare och snippets i en CSV-tabell
På samma sätt som i SE::Google.
Spara relaterade sökord
På samma sätt som i SE::Google.
Kontroll av länkindexering
På samma sätt som i SE::Google.
Spara i SQL-format
På samma sätt som i SE::Google.
Dumpa resultat till JSON
På samma sätt som i SE::Google.
Bearbetning av resultat
A-Parser gör det möjligt att bearbeta resultat direkt under dataskrapningen. I det här avsnittet har vi listat de mest populära fallen för Dogpile-scrapern
Dubblettkontroll av länkar
På samma sätt som i SE::Google.
Dubblettkontroll av länkar per domän
På samma sätt som i SE::Google.
Extrahera domäner
På samma sätt som i SE::Google.
Ta bort taggar från ankare och snippets
På samma sätt som i SE::Google.
Filtrering av länkar efter förekomst
På samma sätt som i SE::Google.
Möjliga inställningar
| Parameternamn | Standardvärde | Beskrivning |
|---|---|---|
| Pages count | 10 | Antal sidor att skrapa (från 1 till 50) |
| Bypass CloudFlare with Chrome | ☑ | Automatisk kringgång av CloudFlare-kontroll |
| Bypass CloudFlare with Chrome Max Pages | 10 | Max antal sidor vid kringgång av CF via Chrome |
| Bypass CloudFlare with Chrome Headless | ☑ | Om alternativet är aktiverat kommer webbläsaren inte att visas under kringgång av CF via Chrome |