SE::Baidu - Scraper voor Baidu-zoekresultaten

Overzicht van de scraper
Scraper van de Baidu-zoekresultaten. Dankzij de Baidu-scraper kunt u enorme databases met links verkrijgen, klaar voor verder gebruik. U kunt query's gebruiken op dezelfde manier als u ze in de Bing-zoekbalk invoert, inclusief zoekoperators (filetype, site, intitle).
De functionaliteit van A-Parser maakt het mogelijk om de instellingen van de Baidu-scraper op te slaan voor later gebruik (presets), een schema voor gegevensextractie in te stellen en nog veel meer. U kunt automatische query-vermenigvuldiging gebruiken, subquery's uit bestanden invoegen, alfanumerieke combinaties en lijsten doorlopen om het maximaal mogelijke aantal resultaten te verkrijgen.
In de Baidu-scraper is het opslaan van resultaten mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt uitvoeren, waaronder JSON, SQL en CSV.
Use cases voor de scraper
🔗 Gegevensextractie van volledige Baidu-links
In deze bron wordt getoond hoe u volledige links kunt scrapen
🔗 Baidu-suggesties
Meerniveaus gegevensextractie van Baidu-suggesties
🔗 JS Scraper JS::SE::Baidu::Suggest
Creatie van JS-scrapers. Baidu-suggesties ophalen
Verzamelde gegevens
- Links
- Snippets
- Anchors
- Totaal aantal resultaten
- Lijst met gerelateerde woorden
- Aantal pagina's in de resultaten

Mogelijkheden
- Scrapt tot 5000 resultaten per query
- Ondersteuning voor alle Baidu-zoekoperators (filetype:, site:, intitle:).
- Verzamelt resultaten per query en gerelateerde trefwoorden
- Omzetting van ingekorte links naar volledige links (optie Get full links)
Gebruiksscenario's
- Verzamelen van linkdatabases - voor A-Poster, XRumer, AllSubmitter, enz.
- Beoordeling van concurrentie voor trefwoorden
- Controleren van indexering van websites
- Verzamelen van pagina's die gespecificeerde trefwoorden in de paginatitel bevatten
Query's
Als query's moeten zoektermen worden opgegeven, bijvoorbeeld:
test
site:www.baidu.com
百度产品大全
intitle:scraper
Query-substituties
U kunt ingebouwde macro's gebruiken voor query-vermenigvuldiging, bijvoorbeeld als we een zeer grote database met forums willen verkrijgen, geven we enkele basisquery's in verschillende talen op:
forum
forum
foro
论坛
In het query-formaat geven we het doorlopen van tekens van a tot zzzz op; deze methode maakt het mogelijk om de zoekresultaten maximaal te roteren en veel nieuwe unieke resultaten te verkrijgen:
$query {az:a:zzzz}
Deze macro genereert 475254 extra query's voor elke oorspronkelijke zoekopdracht, wat in totaal 4 x 475254 = 1901016 zoekopdrachten oplevert. Dit is een indrukwekkend getal, maar voor A-Parser is dit geen enkel probleem. Bij een snelheid van 2000 query's per minuut wordt een dergelijke taak in slechts 16 uur verwerkt.
Gebruik van operators
U kunt zoekoperators in het query-formaat gebruiken, zodat deze automatisch aan elke query uit uw lijst worden toegevoegd:
site:$query
Voorbeelden van resultaatuitvoer
A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een vrije vorm kunnen worden uitgevoerd, evenals in gestructureerde formaten zoals CSV of JSON.
Exporteren van een lijst met links
Links + anchors + snippets met positieweergave
Uitvoer van links, anchors en snippets in een CSV-tabel
Opslaan van gerelateerde trefwoorden
Trefwoordconcurrentie
Controle van linkindexering
Opslaan in SQL-formaat
Resultaten dumpen naar JSON
Verwerking van resultaten
A-Parser maakt het mogelijk om resultaten direct tijdens de gegevensextractie te verwerken. In deze sectie hebben we de meest populaire cases voor de Baidu-scraper verzameld.
Deduplicatie van links
Deduplicatie van links per domein
Domeinen extraheren
Tags verwijderen uit anchors en snippets
Filteren van links op basis van aanwezigheid
Mogelijke instellingen
| Parameternaam | Standaardwaarde | Beschrijving |
|---|---|---|
| Pages count | 5 | Aantal pagina's om te scrapen (van 1 tot 100) |
| Links per page | 50 | Aantal links in de resultaten per pagina (10 / 20 / 50) |
| Get full links | ☐ | Omzetting van ingekorte links naar volledige links (standaard uitgeschakeld) |