SE::DuckDuckGo - DuckDuckGo zoekresultaten scraper

Overzicht van de scraper
Scraper voor de zoekresultaten van DuckDuckGo. Dankzij de DuckDuckGo scraper kunt u grote databases met links verkrijgen die klaar zijn voor verder gebruik. U kunt zoekopdrachten gebruiken op dezelfde manier als u ze invoert in de zoekbalk van DuckDuckGo, inclusief zoekoperators (intitle, inurl, site, enz.). Meer details op de officiële pagina DuckDuckGo Search Syntax.
De functionaliteit van A-Parser maakt het mogelijk om instellingen voor de DuckDuckGo scraper op te slaan voor toekomstig gebruik (presets), een schema voor gegevensextractie in te stellen en nog veel meer. U kunt automatische query-multiplicatie gebruiken, subquery's uit bestanden invoegen, alfanumerieke combinaties en lijsten doorlopen om het maximaal mogelijke aantal resultaten te verkrijgen.
Het opslaan van resultaten is mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt uitvoeren, waaronder JSON, SQL en CSV.
Verzamelde gegevens
- Links, ankers en snippets uit de zoekresultaten

Mogelijkheden
- Ondersteuning voor alle DuckDuckGo zoekoperators (intitle:, inurl:, site:, enz.). Meer details over zoekoperators op de officiële pagina DuckDuckGo Search Syntax
- Scrapt het maximale aantal resultaten dat door Bing wordt geleverd - 10 pagina's van 10 elementen in de resultaten
- Totaal aantal resultaten - 100
- Mogelijkheid om te scrapen op basis van een geselecteerde locatie (optie Location)
- Mogelijkheid om de taal van de resultaten te kiezen (optie Language)
Toepassingen
- Verzamelen van linkdatabases - voor A-Poster, XRumer, AllSubmitter, enz.
- Controleren van de indexering van websites
- Zoeken naar backlinks (vermeldingen) van websites
- Alle andere scenario's waarbij DuckDuckGo op de een of andere manier moet worden gescraped
Zoekopdrachten
Als zoekopdrachten moeten zoekfrasen worden opgegeven, bijvoorbeeld:
Football
test
site:a-parser.com
scraper site:a-parser.com
test -site:tests.com
IoT filetype:pdf
Query-substituties
U kunt ingebouwde macro's gebruiken voor query-multiplicatie, bijvoorbeeld als we een zeer grote database met forums willen verkrijgen, geven we enkele basiszoekopdrachten op in verschillende talen:
forum
forum
foro
论坛
In het queryformaat geven we een bereik van tekens op van a tot zzzz, deze methode maakt het mogelijk om de zoekresultaten maximaal te roteren en veel nieuwe unieke resultaten te verkrijgen:
$query {az:a:zzzz}
Deze macro genereert 475254 extra zoekopdrachten voor elke oorspronkelijke zoekopdracht, wat in totaal 4 x 475254 = 1901016 zoekopdrachten oplevert. Dit is een indrukwekkend getal, maar voor A-Parser is dit geen enkel probleem. Bij een snelheid van 2000 zoekopdrachten per minuut wordt een dergelijke taak in slechts 16 uur verwerkt.
Gebruik van operators
U kunt zoekoperators gebruiken in het queryformaat, zodat deze automatisch aan elke zoekopdracht uit uw lijst worden toegevoegd:
site:$query
Opties voor resultaatweergave
A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een willekeurige vorm kunnen worden weergegeven, evenals in gestructureerde formaten zoals CSV of JSON
Exporteren van een lijst met links
Links + ankers + snippets met positieweergave
Uitvoer van links, ankers en snippets naar een CSV-tabel
Opslaan van gerelateerde zoekwoorden
Indexeringscontrole van links
Opslaan in SQL-formaat
Resultaten dumpen naar JSON
Verwerking van resultaten
A-Parser maakt het mogelijk om resultaten direct tijdens de gegevensextractie te verwerken. In deze sectie hebben we de meest populaire use-cases voor de DuckDuckGo scraper opgenomen
Uniciteit van links
Uniciteit van links per domein
Domeinen extraheren
Tags verwijderen uit ankers en snippets
Filteren van links op basis van voorkomen
Mogelijke instellingen
| Parameternaam | Standaardwaarde | Beschrijving |
|---|---|---|
| Pages count | 5 | Aantal pagina's om te scrapen (van 1 tot 10) |
| Region | US (English) | Locatie selecteren |
| Language | English (United States) | Taal selecteren |
| Safe search | Moderate | Mogelijkheid om "Safe search" in te schakelen |
| Serp time | Any time | Zoekperiode |
| Use HTTP/2 | ☐ | Bepaalt of HTTP/2 moet worden gebruikt in plaats van HTTP/1.1 |
| User agent | Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:120.0) Gecko/20100101 Firefox/120.0 | User-Agent header bij het opvragen van pagina's |