SE::Rambler - scraper voor de zoekresultaten van Rambler

Overzicht van de scraper
Scraper voor de zoekresultaten van Rambler. Dankzij de Rambler-scraper kunt u grote databases met links verkrijgen, klaar voor verder gebruik. U kunt zoekopdrachten gebruiken in dezelfde vorm als u ze in de zoekbalk van Rambler invoert, inclusief zoekoperators (site, ip, enz.).
De functionaliteit van A-Parser maakt het mogelijk om instellingen voor gegevensextractie van de Rambler-scraper op te slaan voor toekomstig gebruik (presets), schema's voor gegevensextractie in te stellen en nog veel meer. U kunt automatische query-vermenigvuldiging gebruiken, subquery's uit bestanden invoegen, alfanumerieke combinaties en lijsten doorlopen om het maximaal mogelijke aantal resultaten te verkrijgen.
Het opslaan van resultaten is mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt uitvoeren, waaronder JSON, SQL en CSV.
Verzamelde gegevens
- Aantal resultaten in de zoekresultaten
- Links, ankers en snippets uit de zoekresultaten
- Lijst met gerelateerde trefwoorden (hints)

Mogelijkheden
- Ondersteuning voor zoekoperators van Rambler (url:, site:, inurl:, host:, rhost:, domain:.)
- Scrapt tot 25 pagina's, van 10 tot 50 resultaten per pagina
- Scrapt gerelateerde trefwoorden ($hints)
- Mogelijkheid om oplosdiensten te gebruiken voor het omzeilen van captcha's
- Keuze van apparaat voor weergave: gewone desktop, mobiele Android of mobiele iOS
Varianten voor gebruik
- Verzamelen van linkdatabases
- Beoordeling van concurrentie voor trefwoorden
- Zoeken naar backlinks (vermeldingen) van websites
- Alle gevallen waarin u de zoekresultaten van Rambler moet scrapen
Zoekopdrachten
Geef zoekopdrachten op dezelfde manier op als in de zoekmachine van Rambler. Stel dat u alleen links van één website nodig heeft. Voer in het veld voor zoekopdrachten in:
"deuren kopen" site:http://kp.ru
Query-substituties
U kunt ingebouwde macro's gebruiken voor het vermenigvuldigen van zoekopdrachten, bijvoorbeeld als we een zeer grote database met forums willen verkrijgen, geven we enkele basiszoekopdrachten in verschillende talen op:
forum
forum
foro
论坛
In het query-formaat geven we een bereik van tekens op van a tot zzzz, deze methode maakt het mogelijk om de zoekresultaten maximaal te roteren en veel nieuwe unieke resultaten te verkrijgen:
$query {az:a:zzzz}
Deze macro zal 475254 extra zoekopdrachten maken voor elke oorspronkelijke zoekopdracht, wat in totaal 4 x 475254 = 1901016 zoekopdrachten oplevert, een indrukwekkend getal, maar dit is absoluut geen probleem voor A-Parser. Met een snelheid van 2000 verzoeken per minuut wordt een dergelijke taak in slechts 16 uur verwerkt.
Gebruik van operators
U kunt zoekoperators in het query-formaat gebruiken, zodat deze automatisch aan elke zoekopdracht uit uw lijst worden toegevoegd:
site:$query
Varianten voor resultaatuitvoer
A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een willekeurige vorm kunnen worden uitgevoerd, evenals in gestructureerde formaten zoals CSV of JSON.
Export van een lijst met links
Links + ankers + snippets met positieweergave
Uitvoer van links, ankers en snippets in een CSV-tabel
Opslaan van gerelateerde trefwoorden
Resultaatformaat:
$hints.format('$hint\n')
Voorbeeldresultaat:
habrahabr
habr
habrahabr ru
xabra
livebusiness
eureka
elektronische boekhouder
eiland elba
elba elektronische boekhouder
habrahabr
...
Opslaan in SQL-formaat
Resultatendump in JSON
Verwerking van resultaten
A-Parser maakt het mogelijk om resultaten direct tijdens de gegevensextractie te verwerken, in deze sectie hebben we de meest populaire cases voor de Rambler-scraper opgenomen.
Unificatie van links
Unificatie van links per domein
Domeinen extraheren
Tags verwijderen uit ankers en snippets
Filteren van links op voorkomen
Mogelijke instellingen
| Naam parameter | Standaardwaarde | Beschrijving |
|---|---|---|
| Device | Desktop | Keuze van apparaat voor weergave: gewone desktop, mobiele Android of mobiele iOS |
| Pages count | 5 | Aantal pagina's om te scrapen (van 1 tot 25) |
| Links per page | 10 | Aantal resultaten per pagina (10/15/30/50) |
| Rambler region ID | Mogelijkheid om een regio in te stellen. De regio-ID moet worden opgegeven. Hoe u de ID van de gewenste regio kunt vinden, wordt hier beschreven | |
| Sort | Sites by relevance | Keuze van de sorteervariant voor resultaten |
| Results filtering | Moderate | Keuze van de filtervariant voor resultaten |
| Results language | Any language | Keuze van de zoektaal voor resultaten |
| Serp time | Anytime | Keuze van de periode voor resultaten |
| Results type | Any format | Keuze van het resultaattype (mime type) |
| Exact match | ☐ | Strikt overeenkomen met de zoekopdracht |
| Disable autocorrect | ☐ | Schakelt autocorrectie uit, maakt het mogelijk om de resultaten exact volgens de opgegeven zoekopdracht te scrapen |
| Use sessions | ☑ | Slaat goede sessies op, wat het mogelijk maakt om nog sneller te scrapen met minder fouten |
| AntiGate preset | default | Bepaalt of Util::AntiGate moet worden gebruikt voor het omzeilen van captcha's |
