SE::Bing - Bing zoekresultaten scraper

Overzicht van de scraper
Scraper voor de zoekresultaten van Bing. Dankzij de SE::Bing scraper kunt u enorme databases met links verkrijgen, klaar voor verder gebruik. U kunt zoekopdrachten gebruiken op dezelfde manier als u ze invoert in de Bing-zoekbalk, inclusief zoekoperators (contains, intitle, language, site, enz.). Meer details op de officiële pagina Advanced search keywords.
De functionaliteit van A-Parser stelt u in staat om instellingen voor de Bing-scraper op te slaan voor later gebruik (presets), een schema voor gegevensextractie in te stellen en nog veel meer. U kunt automatische query-multiplicatie gebruiken, subquery's uit bestanden invoegen, alfanumerieke combinaties en lijsten doorlopen om het maximaal mogelijke aantal resultaten te verkrijgen.
Het opslaan van resultaten is mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt uitvoeren, waaronder JSON, SQL en CSV.
Use cases voor de scraper
🔗 Gegevensextractie van Bing-zoekresultaten
Bing scraping met automatische query-vermenigvuldiging (Parse all results)
🔗 Scraping van top 10 en tag-inhoud
Meerstaps scraping. We scrapen de top 10 en de inhoud van de title- en description-tags voor deze sites
🔗 JS-scraper op basis van de Bing-scraper
JS-scrapers maken. Resultaten ophalen van een standaard scraper
🔗 Alle resultaten in Bing scrapen
Scraping met intelligente query-substitutie via de Template Toolkit-template-engine en tools.query.add
🔗 Deduplicatie in Bing
Scraping van unieke URL's per zoekwoord met deduplicatie op domein, met de mogelijkheid om het maximale aantal URL's per domein op te geven
🔗 Meerdere scrapers in een preset
De preset toont een voorbeeld van het gebruik van meerdere scrapers
Verzamelde gegevens
- Aantal resultaten per zoekopdracht
- Links, ankers en snippets uit de zoekresultaten
- Lijst met gerelateerde zoekwoorden (Related keywords)
- Links, zichtbare links, ankers, snippets en advertentiepositie uit de advertentieresultaten

Mogelijkheden
- Ondersteuning voor alle Bing-zoekoperators (site:, ip:, enz.). Meer details over zoekoperators op de officiële pagina Advanced search keywords.
- Scrapt het maximale aantal resultaten dat Bing geeft - tot 200 pagina's met resultaten
- Kan automatisch meer dan 1000 resultaten per zoekopdracht scrapen - voegt extra tekens toe (optie Parse all results)
- Mogelijkheid tot diepte-extractie op basis van gerelateerde zoekwoorden (Parse related to level)
- Mogelijkheid om naar gerelateerde zoekwoorden te zoeken
- Mogelijkheid om links naar gecachete pagina's te scrapen
- Mogelijkheid om mobiele zoekresultaten te scrapen
- Ondersteuning voor het laden van gegevens bij het scrollen in de mobiele lay-out
De volgende scrapers werken op basis van de Bing-scraper:
SE::Bing::Position - posities bepalen van willekeurige sites in de zoekresultaten op basis van een lijst met zoekopdrachten
Gebruiksscenario's
- Verzamelen van linkdatabases - voor A-Poster, XRumer, AllSubmitter, enz.
- Beoordeling van concurrentie voor zoekwoorden
- Zoeken naar backlinks (vermeldingen) van websites
- Controleren van website-indexering
- Zoeken naar kwetsbare websites
- Zoeken naar websites op één IP-adres
- Alle andere scenario's waarbij Bing-extractie in een of andere vorm nodig is
Zoekopdrachten
Als zoekopdrachten moeten zoektermen worden opgegeven, precies zoals ze rechtstreeks in het Bing-zoekformulier zouden worden ingevoerd, bijvoorbeeld:
test
ramen Amsterdam
site:http://lenta.ru
ip:222.36.12.12
Query-substituties
U kunt ingebouwde macro's gebruiken voor query-multiplicatie, bijvoorbeeld als we een zeer grote database met forums willen verkrijgen, geven we enkele basiszoekopdrachten in verschillende talen op:
forum
forum
foro
论坛
In het query-formaat geven we een bereik van tekens op van a tot zzzz, deze methode maakt het mogelijk om de zoekresultaten maximaal te roteren en veel nieuwe unieke resultaten te verkrijgen:
$query {az:a:zzzz}
Deze macro zal 475254 extra zoekopdrachten maken voor elke oorspronkelijke zoekopdracht, wat in totaal 4 x 475254 = 1901016 zoekopdrachten oplevert, een indrukwekkend getal, maar dat is geen enkel probleem voor A-Parser. Met een snelheid van 2000 zoekopdrachten per minuut wordt een dergelijke taak in slechts 16 uur verwerkt.
Gebruik van operators
U kunt zoekoperators in het query-formaat gebruiken, zodat deze automatisch aan elke zoekopdracht uit uw lijst worden toegevoegd:
site:$query
Voorbeelden van resultaatuitvoer
A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een willekeurige vorm kunnen worden uitgevoerd, evenals in gestructureerde formaten zoals CSV of JSON
Exporteren van een lijst met links
Links + ankers + snippets met positieweergave
Uitvoer van links, ankers en snippets naar een CSV-tabel
Opslaan van gerelateerde zoekwoorden
Zoekwoordconcurrentie
Indexeringscontrole van links
Opslaan in SQL-formaat
Dump resultaten naar JSON
Verwerking van resultaten
A-Parser maakt het mogelijk om resultaten direct tijdens de gegevensextractie te verwerken. In deze sectie hebben we de meest populaire use cases voor de Bing-scraper verzameld.
Deduplicatie van links
Deduplicatie van links per domein
Domeinen extraheren
Tags verwijderen uit ankers en snippets
Links filteren op basis van aanwezigheid
Mogelijke instellingen
| Naam parameter | Standaardwaarde | Beschrijving |
|---|---|---|
| Pages count | 10 | Aantal pagina's om te scrapen (van 1 tot 200) |
| Region | Based on IP | Regioselectie. Lijst met regio's. |
| Interface language | Any | Selectie van de interfacetaal. Lijst met talen. |
| Safe Search | Moderate | Selectie van de veilige zoekoptie (Strict / Moderate / Off) |
| Device | Desktop | Selectie van het zoekapparaat (Desktop / Mobile) |
| Show inaccessible results | ☐ | Maakt het mogelijk om verborgen resultaten weer te geven |
| Stop pagination by results count | 0 | Stopt het doorlopen van paginering bij het bereiken van een opgegeven aantal resultaten. Werkt als aanvulling op Pages count, de extractie stopt afhankelijk van wat het eerst wordt bereikt: het opgegeven aantal pagina's of het opgegeven aantal resultaten. |
| Handle captcha max pages | 10 | Maximaal aantal gelijktijdig geopende pagina's waarmee cookies worden gegenereerd die nodig zijn voor het succesvol passeren van de captcha. Beperkt het parallellisme tijdens de captcha-omzeiling. |