Ga naar de hoofdinhoud

SE::Baidu - Scraper voor Baidu-zoekresultaten

img

Overzicht van de scraper

Scraper van de Baidu-zoekresultaten. Dankzij de Baidu-scraper kunt u enorme databases met links verkrijgen, klaar voor verder gebruik. U kunt query's gebruiken op dezelfde manier als u ze in de Bing-zoekbalk invoert, inclusief zoekoperators (filetype, site, intitle).

De functionaliteit van A-Parser maakt het mogelijk om de instellingen van de Baidu-scraper op te slaan voor later gebruik (presets), een schema voor gegevensextractie in te stellen en nog veel meer. U kunt automatische query-vermenigvuldiging gebruiken, subquery's uit bestanden invoegen, alfanumerieke combinaties en lijsten doorlopen om het maximaal mogelijke aantal resultaten te verkrijgen.

In de Baidu-scraper is het opslaan van resultaten mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt uitvoeren, waaronder JSON, SQL en CSV.

Use cases voor de scraper

Verzamelde gegevens

  • Links
  • Snippets
  • Anchors
  • Totaal aantal resultaten
  • Lijst met gerelateerde woorden
  • Aantal pagina's in de resultaten
Verzamelde gegevens

Mogelijkheden

  • Scrapt tot 5000 resultaten per query
  • Ondersteuning voor alle Baidu-zoekoperators (filetype:, site:, intitle:).
  • Verzamelt resultaten per query en gerelateerde trefwoorden
  • Omzetting van ingekorte links naar volledige links (optie Get full links)

Gebruiksscenario's

  • Verzamelen van linkdatabases - voor A-Poster, XRumer, AllSubmitter, enz.
  • Beoordeling van concurrentie voor trefwoorden
  • Controleren van indexering van websites
  • Verzamelen van pagina's die gespecificeerde trefwoorden in de paginatitel bevatten

Query's

Als query's moeten zoektermen worden opgegeven, bijvoorbeeld:

test
site:www.baidu.com
百度产品大全
intitle:scraper

Query-substituties

U kunt ingebouwde macro's gebruiken voor query-vermenigvuldiging, bijvoorbeeld als we een zeer grote database met forums willen verkrijgen, geven we enkele basisquery's in verschillende talen op:

forum
forum
foro
论坛

In het query-formaat geven we het doorlopen van tekens van a tot zzzz op; deze methode maakt het mogelijk om de zoekresultaten maximaal te roteren en veel nieuwe unieke resultaten te verkrijgen:

$query {az:a:zzzz}

Deze macro genereert 475254 extra query's voor elke oorspronkelijke zoekopdracht, wat in totaal 4 x 475254 = 1901016 zoekopdrachten oplevert. Dit is een indrukwekkend getal, maar voor A-Parser is dit geen enkel probleem. Bij een snelheid van 2000 query's per minuut wordt een dergelijke taak in slechts 16 uur verwerkt.

Gebruik van operators

U kunt zoekoperators in het query-formaat gebruiken, zodat deze automatisch aan elke query uit uw lijst worden toegevoegd:

site:$query

Voorbeelden van resultaatuitvoer

A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een vrije vorm kunnen worden uitgevoerd, evenals in gestructureerde formaten zoals CSV of JSON.

Exporteren van een lijst met links

Vergelijkbaar met SE::Google.

Vergelijkbaar met SE::Google.

Vergelijkbaar met SE::Google.

Vergelijkbaar met SE::Google.

Trefwoordconcurrentie

Vergelijkbaar met SE::Google.

Controle van linkindexering

Vergelijkbaar met SE::Google.

Opslaan in SQL-formaat

Vergelijkbaar met SE::Google.

Resultaten dumpen naar JSON

Vergelijkbaar met SE::Google.

Verwerking van resultaten

A-Parser maakt het mogelijk om resultaten direct tijdens de gegevensextractie te verwerken. In deze sectie hebben we de meest populaire cases voor de Baidu-scraper verzameld.

Vergelijkbaar met SE::Google.

Vergelijkbaar met SE::Google.

Domeinen extraheren

Vergelijkbaar met SE::Google.

Tags verwijderen uit anchors en snippets

Vergelijkbaar met SE::Google.

Vergelijkbaar met SE::Google.

Mogelijke instellingen

ParameternaamStandaardwaardeBeschrijving
Pages count5Aantal pagina's om te scrapen (van 1 tot 100)
Links per page50Aantal links in de resultaten per pagina (10 / 20 / 50)
Get full linksOmzetting van ingekorte links naar volledige links (standaard uitgeschakeld)