Ga naar de hoofdinhoud

SE::Startpage - scraper voor startpage.com zoekresultaten

Startpage

Overzicht van de scraper

Scraper voor de zoekresultaten van Startpage. Dankzij de Startpage-scraper kunt u grote databases met links verkrijgen die klaar zijn voor verder gebruik. U kunt zoekopdrachten gebruiken op dezelfde manier als u ze in de zoekbalk van Startpage invoert, inclusief zoekoperators (site, inurl, enz.).

De functionaliteit van A-Parser maakt het mogelijk om de instellingen voor gegevensextractie van de Startpage-scraper op te slaan voor toekomstig gebruik (presets), extractieschema's in te stellen en nog veel meer. U kunt automatische query-vermenigvuldiging gebruiken, subquery's uit bestanden invoegen, alfanumerieke combinaties en lijsten doorlopen om het maximaal mogelijke aantal resultaten te verkrijgen.

Het opslaan van resultaten is mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt uitvoeren, waaronder JSON, SQL en CSV.

Verzamelde gegevens

  • Links, ankers en snippets uit de zoekresultaten
Verzamelde gegevens

Mogelijkheden

  • Ondersteunt de keuze van land, zoektaal en paginataal
  • Mogelijkheid om ankers, links en snippets samen of afzonderlijk weer te geven
  • Mogelijkheid om het aantal weer te geven resultaten op te geven
  • Opgeven van de omvang van de zoekresultaten (10 of 20 resultaten)

Toepassingen

  • Verzamelen van databases met links, ankers en snippets
  • Verkrijgen van een lijst met websites die het vaakst worden genoemd in zoekmachines
  • Alle andere toepassingen voor het verkrijgen van informatie

Query's

Als query's worden woorden, zinnen en woordcombinaties opgegeven op dezelfde manier als ze in de zoekmachine worden getypt. Voorbeeld:

test   
site:http://test.ru
rode rozen

Query-substituties

U kunt ingebouwde macro's gebruiken voor query-vermenigvuldiging. Als we bijvoorbeeld een zeer grote database met forums willen verkrijgen, geven we enkele basisquery's in verschillende talen op:

forum
forum
foro
论坛

In het query-formaat geven we het doorlopen van tekens van a tot zzzz op. Deze methode maakt het mogelijk om de zoekresultaten maximaal te roteren en veel nieuwe unieke resultaten te verkrijgen:

$query {az:a:zzzz}

Deze macro creëert 475254 extra query's voor elke oorspronkelijke zoekopdracht, wat in totaal 4 x 475254 = 1901016 zoekopdrachten oplevert. Dit is een indrukwekkend getal, maar het is absoluut geen probleem voor A-Parser. Bij een snelheid van 2000 query's per minuut wordt een dergelijke taak in slechts 16 uur verwerkt.

Gebruik van operators

U kunt zoekoperators gebruiken in het query-formaat, zodat deze automatisch aan elke query uit uw lijst worden toegevoegd:

site:$query

Voorbeelden van resultaatuitvoer

A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een willekeurige vorm kunnen worden uitgevoerd, evenals in gestructureerde formaten zoals CSV of JSON.

Export van linklijst

Hetzelfde als in SE::Google.

Hetzelfde als in SE::Google.

Hetzelfde als in SE::Google.

Opslaan in SQL-formaat

Hetzelfde als in SE::Google.

Dump van resultaten naar JSON

Hetzelfde als in SE::Google.

Verwerking van resultaten

A-Parser maakt het mogelijk om resultaten direct tijdens de gegevensextractie te verwerken. In deze sectie hebben we de meest populaire cases voor de Startpage-scraper opgenomen.

Hetzelfde als in SE::Google.

Hetzelfde als in SE::Google.

Domeinen extraheren

Hetzelfde als in SE::Google.

Tags verwijderen uit ankers en snippets

Hetzelfde als in SE::Google.

Hetzelfde als in SE::Google.

Mogelijke instellingen

Naam parameterStandaardwaardeBeschrijving
Pages count5Aantal pagina's voor gegevensextractie (van 1 tot 50)
Family filterFilter depending on searchKeuze van filterniveau (Filter all results / Filter depending on search / Do not filter my results)
PeriodAny timeKeuze van de periode van de resultaten (Any time / Past 24 hours / Past week / Past month / Past year)
Links per page10Omvang van de resultaten (10 / 20)
Results languageEnglishKeuze van de taal van de resultaten
Page languageEnglishKeuze van de paginataal
Search countryAllKeuze van het land van waaruit de zoekopdracht wordt uitgevoerd