Ga naar de hoofdinhoud

SE::Dogpile - Scraper voor Dogpile zoekresultaten

img

Overzicht van de scraper

Scraper voor de zoekresultaten van Dogpile. Dankzij de SE::Dogpile scraper kunt u grote databases met links verkrijgen, klaar voor verder gebruik. U kunt zoekopdrachten gebruiken in dezelfde vorm als u ze invoert in de zoekbalk van Dogpile, inclusief zoekoperators (url, language, site, enz.).

De functionaliteit van A-Parser maakt het mogelijk om instellingen voor de Dogpile scraper op te slaan voor toekomstig gebruik (presets), een schema voor gegevensextractie in te stellen en nog veel meer. U kunt automatische query-vermenigvuldiging gebruiken, subquery's uit bestanden invoegen, alfanumerieke combinaties en lijsten doorlopen om het maximaal mogelijke aantal resultaten te verkrijgen.

Het opslaan van resultaten is mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt uitvoeren, waaronder JSON, SQL en CSV.

Verzamelde gegevens

  • Links, ankers en snippets uit de zoekresultaten
  • Lijst met gerelateerde zoekwoorden (Related keywords)
Verzamelde gegevens

Mogelijkheden

  • Scrapt het maximale aantal resultaten dat Dogpile teruggeeft - 50 pagina's van 10 elementen in de zoekresultaten
  • Totaal aantal resultaten - 500
  • Mogelijkheid om te zoeken naar gerelateerde zoekwoorden

Toepassingen

  • Verzamelen van linkdatabases - voor A-Poster, XRumer, AllSubmitter, enz.
  • Concurrentieanalyse voor zoekwoorden
  • Zoeken naar backlinks (vermeldingen) van websites
  • Controleren van de indexering van websites
  • Zoeken naar kwetsbare websites
  • Alle andere scenario's waarbij Dogpile in een of andere vorm wordt gescraped

Zoekopdrachten

Als zoekopdrachten moeten zoekfrasen worden opgegeven, precies zoals u ze rechtstreeks in het zoekformulier van Dogpile zou invoeren, bijvoorbeeld:

test
parser language: ru
site: a-parser.com
site: slideshare.net Java Developer gmail.com resume -sample -samples -example -templates

Query-substituties

U kunt ingebouwde macro's gebruiken voor query-vermenigvuldiging. Als we bijvoorbeeld een zeer grote database met forums willen verkrijgen, geven we enkele basiszoekopdrachten op in verschillende talen:

forum
forum
foro
论坛

In het query-formaat geven we een bereik van tekens op van a tot zzzz. Deze methode maakt het mogelijk om de zoekresultaten maximaal te roteren en veel nieuwe unieke resultaten te verkrijgen:

$query {az:a:zzzz}

Deze macro genereert 475254 extra zoekopdrachten voor elke oorspronkelijke zoekopdracht, wat in totaal neerkomt op 4 x 475254 = 1901016 zoekopdrachten. Een indrukwekkend getal, maar dat is geen enkel probleem voor A-Parser. Met een snelheid van 2000 zoekopdrachten per minuut wordt een dergelijke taak in slechts 16 uur verwerkt.

Gebruik van operators

U kunt zoekoperators gebruiken in het query-formaat, zodat deze automatisch aan elke zoekopdracht uit uw lijst worden toegevoegd:

site:$query

Voorbeelden van resultaatuitvoer

A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een willekeurige vorm kunnen worden uitgevoerd, evenals in gestructureerde formaten zoals CSV of JSON.

Export van een lijst met links

Hetzelfde als in SE::Google.

Hetzelfde als in SE::Google.

Hetzelfde als in SE::Google.

Hetzelfde als in SE::Google.

Indexeringscontrole van links

Hetzelfde als in SE::Google.

Opslaan in SQL-formaat

Hetzelfde als in SE::Google.

Resultaten dumpen naar JSON

Hetzelfde als in SE::Google.

Verwerking van resultaten

A-Parser maakt het mogelijk om resultaten direct tijdens de gegevensextractie te verwerken. In deze sectie hebben we de meest populaire cases voor de Dogpile scraper verzameld.

Hetzelfde als in SE::Google.

Hetzelfde als in SE::Google.

Domeinen extraheren

Hetzelfde als in SE::Google.

Tags verwijderen uit ankers en snippets

Hetzelfde als in SE::Google.

Hetzelfde als in SE::Google.

Mogelijke instellingen

Naam parameterStandaardwaardeBeschrijving
Pages count10Aantal pagina's om te scrapen (van 1 tot 50)
Bypass CloudFlare with ChromeAutomatische omzeiling van CloudFlare-controle
Bypass CloudFlare with Chrome Max Pages10Max. aantal pagina's bij CF-omzeiling via Chrome
Bypass CloudFlare with Chrome HeadlessAls deze optie is ingeschakeld, wordt de browser niet weergegeven tijdens de CF-omzeiling via Chrome