Hoppa till huvudinnehåll

SE::Rambler - scraper för Ramblers sökresultat

img

Översikt av scrapern

Scraper för Ramblers sökresultat. Tack vare Rambler-scrapern kan du få stora baser med länkar redo för vidare användning. Du kan använda sökfrågor på samma sätt som du skriver in dem i Ramblers sökfält, inklusive sökoperatorer (site, ip etc.).

Funktionaliteten i A-Parser gör det möjligt att spara inställningar för Rambler-dataskrapning för framtida bruk (förinställningar), ställa in scheman för dataskrapning och mycket mer. Du kan använda automatisk multiplicering av frågor, infogning av underfrågor från filer, generering av alfanumeriska kombinationer och listor för att få största möjliga antal resultat.

Resultaten kan sparas i den form och struktur du behöver, tack vare den inbyggda kraftfulla mallmotorn Template Toolkit som gör det möjligt att tillämpa extra logik på resultaten och exportera data i olika format, inklusive JSON, SQL och CSV.

Datapunkter som samlas in

  • Antal resultat i söklistan
  • Länkar, ankare och snippets från sökresultaten
  • Lista över relaterade sökord (hints)

vilken data samlar scrapern SE::Rambler in

Funktioner

  • Stöd för Ramblers sökoperatorer (url:, site:, inurl:, host:, rhost:, domain:.)
  • Skrapar upp till 25 sidor, från 10 till 50 resultat per sida
  • Skrapar relaterade sökord ($hints)
  • Möjlighet att använda tjänster för lösning av captcha
  • Val av enhet för sökresultat: vanlig desktop, mobil Android eller mobil iOS

Användningsfall

  • Insamling av länkdatabaser
  • Bedömning av konkurrens för sökord
  • Sökning efter backlänkar (omnämnanden) av webbplatser
  • Alla fall där du behöver skrapa Ramblers sökresultat

Frågor

Ange frågor på samma sätt som i Ramblers sökning. Antag att du bara behöver länkar från en specifik webbplats. Ange i frågefältet:

"köpa dörrar" site:http://kp.ru

Frågesubstitutioner

Du kan använda inbyggda makron för att multiplicera frågor, till exempel om vi vill få en mycket stor bas av forum, anger vi några huvudfrågor på olika språk:

forum
forum
foro
论坛

I frågeformatet anger vi en teckenbläddring från a till zzzz, denna metod gör det möjligt att rotera sökresultaten maximalt och få många nya unika resultat:

$query {az:a:zzzz}

Detta makro kommer att skapa 475254 extra frågor för varje ursprunglig sökfråga, vilket totalt ger 4 x 475254 = 1901016 sökfrågor. Siffran är imponerande, men det är inga problem för A-Parser. Med en hastighet på 2000 frågor per minut kommer en sådan uppgift att bearbetas på bara 16 timmar.

Användning av operatorer

Du kan använda sökoperatorer i frågeformatet, så att de automatiskt läggs till i varje fråga från din lista:

site:$query

Exempel på resultatutdata

A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallmotorn Template Toolkit, vilket gör att den kan mata ut resultat i valfri form, såväl som i strukturerad form som CSV eller JSON

Export av länklista

Samma som i SE::Google.

Samma som i SE::Google.

Samma som i SE::Google.

Resultatformat:

$hints.format('$hint\n')

Exempel på resultat:

habrahabr
habr
habrahabr ru
xabra
livebusiness
eureka
digital bokförare
ön elba
elba digital bokförare
habrahabr
...

Spara i SQL-format

Samma som i SE::Google.

Dumpa resultat till JSON

Samma som i SE::Google.

Bearbetning av resultat

A-Parser gör det möjligt att bearbeta resultat direkt under dataskrapningen. I det här avsnittet har vi listat de mest populära fallen för Rambler-scrapern

Samma som i SE::Google.

Samma som i SE::Google.

Extrahera domäner

Samma som i SE::Google.

Ta bort taggar från ankare och snippets

Samma som i SE::Google.

Samma som i SE::Google.

Möjliga inställningar

Namn på parameterStandardvärdeBeskrivning
DeviceDesktopVal av enhet för sökresultat: vanlig desktop, mobil Android eller mobil iOS
Pages count5Antal sidor att skrapa (från 1 till 25)
Links per page10Antal resultat per sida (10/15/30/50)
Rambler region IDMöjlighet att ange region. Region-ID måste anges. Hur man hittar ID för önskad region beskrivs här
SortSites by relevanceVal av sorteringsalternativ för resultaten
Results filteringModerateVal av filtreringsalternativ för resultaten
Results languageAny languageVal av sökresultatens språk
Serp timeAnytimeVal av tidsperiod för resultaten
Results typeAny formatVal av resultattyp (mime type)
Exact matchStrikt matchning av sökfrågan
Disable autocorrectInaktiverar autokorrigering, gör det möjligt att skrapa resultat exakt för den angivna frågan
Use sessionsSparar bra sessioner, vilket gör det möjligt att skrapa ännu snabbare med färre fel
AntiGate presetdefaultAvgör om Util::AntiGateUtil::AntiGate ska användas för att kringgå captchas