SE::Rambler - scraper för Ramblers sökresultat

Översikt av scrapern
Scraper för Ramblers sökresultat. Tack vare Rambler-scrapern kan du få stora baser med länkar redo för vidare användning. Du kan använda sökfrågor på samma sätt som du skriver in dem i Ramblers sökfält, inklusive sökoperatorer (site, ip etc.).
Funktionaliteten i A-Parser gör det möjligt att spara inställningar för Rambler-dataskrapning för framtida bruk (förinställningar), ställa in scheman för dataskrapning och mycket mer. Du kan använda automatisk multiplicering av frågor, infogning av underfrågor från filer, generering av alfanumeriska kombinationer och listor för att få största möjliga antal resultat.
Resultaten kan sparas i den form och struktur du behöver, tack vare den inbyggda kraftfulla mallmotorn Template Toolkit som gör det möjligt att tillämpa extra logik på resultaten och exportera data i olika format, inklusive JSON, SQL och CSV.
Datapunkter som samlas in
- Antal resultat i söklistan
- Länkar, ankare och snippets från sökresultaten
- Lista över relaterade sökord (hints)

Funktioner
- Stöd för Ramblers sökoperatorer (url:, site:, inurl:, host:, rhost:, domain:.)
- Skrapar upp till 25 sidor, från 10 till 50 resultat per sida
- Skrapar relaterade sökord ($hints)
- Möjlighet att använda tjänster för lösning av captcha
- Val av enhet för sökresultat: vanlig desktop, mobil Android eller mobil iOS
Användningsfall
- Insamling av länkdatabaser
- Bedömning av konkurrens för sökord
- Sökning efter backlänkar (omnämnanden) av webbplatser
- Alla fall där du behöver skrapa Ramblers sökresultat
Frågor
Ange frågor på samma sätt som i Ramblers sökning. Antag att du bara behöver länkar från en specifik webbplats. Ange i frågefältet:
"köpa dörrar" site:http://kp.ru
Frågesubstitutioner
Du kan använda inbyggda makron för att multiplicera frågor, till exempel om vi vill få en mycket stor bas av forum, anger vi några huvudfrågor på olika språk:
forum
forum
foro
论坛
I frågeformatet anger vi en teckenbläddring från a till zzzz, denna metod gör det möjligt att rotera sökresultaten maximalt och få många nya unika resultat:
$query {az:a:zzzz}
Detta makro kommer att skapa 475254 extra frågor för varje ursprunglig sökfråga, vilket totalt ger 4 x 475254 = 1901016 sökfrågor. Siffran är imponerande, men det är inga problem för A-Parser. Med en hastighet på 2000 frågor per minut kommer en sådan uppgift att bearbetas på bara 16 timmar.
Användning av operatorer
Du kan använda sökoperatorer i frågeformatet, så att de automatiskt läggs till i varje fråga från din lista:
site:$query
Exempel på resultatutdata
A-Parser stöder flexibel formatering av resultat tack vare den inbyggda mallmotorn Template Toolkit, vilket gör att den kan mata ut resultat i valfri form, såväl som i strukturerad form som CSV eller JSON
Export av länklista
Länkar + ankare + snippets med position
Utdata av länkar, ankare och snippets i en CSV-tabell
Spara relaterade sökord
Resultatformat:
$hints.format('$hint\n')
Exempel på resultat:
habrahabr
habr
habrahabr ru
xabra
livebusiness
eureka
digital bokförare
ön elba
elba digital bokförare
habrahabr
...
Spara i SQL-format
Dumpa resultat till JSON
Bearbetning av resultat
A-Parser gör det möjligt att bearbeta resultat direkt under dataskrapningen. I det här avsnittet har vi listat de mest populära fallen för Rambler-scrapern
Dubblettkontroll av länkar
Dubblettkontroll av länkar per domän
Extrahera domäner
Ta bort taggar från ankare och snippets
Filtrering av länkar efter förekomst
Möjliga inställningar
| Namn på parameter | Standardvärde | Beskrivning |
|---|---|---|
| Device | Desktop | Val av enhet för sökresultat: vanlig desktop, mobil Android eller mobil iOS |
| Pages count | 5 | Antal sidor att skrapa (från 1 till 25) |
| Links per page | 10 | Antal resultat per sida (10/15/30/50) |
| Rambler region ID | Möjlighet att ange region. Region-ID måste anges. Hur man hittar ID för önskad region beskrivs här | |
| Sort | Sites by relevance | Val av sorteringsalternativ för resultaten |
| Results filtering | Moderate | Val av filtreringsalternativ för resultaten |
| Results language | Any language | Val av sökresultatens språk |
| Serp time | Anytime | Val av tidsperiod för resultaten |
| Results type | Any format | Val av resultattyp (mime type) |
| Exact match | ☐ | Strikt matchning av sökfrågan |
| Disable autocorrect | ☐ | Inaktiverar autokorrigering, gör det möjligt att skrapa resultat exakt för den angivna frågan |
| Use sessions | ☑ | Sparar bra sessioner, vilket gör det möjligt att skrapa ännu snabbare med färre fel |
| AntiGate preset | default | Avgör om Util::AntiGate ska användas för att kringgå captchas |
