SE::Startpage - scraper voor startpage.com zoekresultaten

Overzicht van de scraper
Scraper voor de zoekresultaten van Startpage. Dankzij de Startpage-scraper kunt u grote databases met links verkrijgen die klaar zijn voor verder gebruik. U kunt zoekopdrachten gebruiken op dezelfde manier als u ze in de zoekbalk van Startpage invoert, inclusief zoekoperators (site, inurl, enz.).
De functionaliteit van A-Parser maakt het mogelijk om de instellingen voor gegevensextractie van de Startpage-scraper op te slaan voor toekomstig gebruik (presets), extractieschema's in te stellen en nog veel meer. U kunt automatische query-vermenigvuldiging gebruiken, subquery's uit bestanden invoegen, alfanumerieke combinaties en lijsten doorlopen om het maximaal mogelijke aantal resultaten te verkrijgen.
Het opslaan van resultaten is mogelijk in de vorm en structuur die u nodig heeft, dankzij de ingebouwde krachtige sjabloon-engine Template Toolkit waarmee u extra logica op de resultaten kunt toepassen en gegevens in verschillende formaten kunt uitvoeren, waaronder JSON, SQL en CSV.
Verzamelde gegevens
- Links, ankers en snippets uit de zoekresultaten

Mogelijkheden
- Ondersteunt de keuze van land, zoektaal en paginataal
- Mogelijkheid om ankers, links en snippets samen of afzonderlijk weer te geven
- Mogelijkheid om het aantal weer te geven resultaten op te geven
- Opgeven van de omvang van de zoekresultaten (10 of 20 resultaten)
Toepassingen
- Verzamelen van databases met links, ankers en snippets
- Verkrijgen van een lijst met websites die het vaakst worden genoemd in zoekmachines
- Alle andere toepassingen voor het verkrijgen van informatie
Query's
Als query's worden woorden, zinnen en woordcombinaties opgegeven op dezelfde manier als ze in de zoekmachine worden getypt. Voorbeeld:
test
site:http://test.ru
rode rozen
Query-substituties
U kunt ingebouwde macro's gebruiken voor query-vermenigvuldiging. Als we bijvoorbeeld een zeer grote database met forums willen verkrijgen, geven we enkele basisquery's in verschillende talen op:
forum
forum
foro
论坛
In het query-formaat geven we het doorlopen van tekens van a tot zzzz op. Deze methode maakt het mogelijk om de zoekresultaten maximaal te roteren en veel nieuwe unieke resultaten te verkrijgen:
$query {az:a:zzzz}
Deze macro creëert 475254 extra query's voor elke oorspronkelijke zoekopdracht, wat in totaal 4 x 475254 = 1901016 zoekopdrachten oplevert. Dit is een indrukwekkend getal, maar het is absoluut geen probleem voor A-Parser. Bij een snelheid van 2000 query's per minuut wordt een dergelijke taak in slechts 16 uur verwerkt.
Gebruik van operators
U kunt zoekoperators gebruiken in het query-formaat, zodat deze automatisch aan elke query uit uw lijst worden toegevoegd:
site:$query
Voorbeelden van resultaatuitvoer
A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een willekeurige vorm kunnen worden uitgevoerd, evenals in gestructureerde formaten zoals CSV of JSON.
Export van linklijst
Links + ankers + snippets met positieweergave
Uitvoer van links, ankers en snippets in een CSV-tabel
Opslaan in SQL-formaat
Dump van resultaten naar JSON
Verwerking van resultaten
A-Parser maakt het mogelijk om resultaten direct tijdens de gegevensextractie te verwerken. In deze sectie hebben we de meest populaire cases voor de Startpage-scraper opgenomen.
Link-deduplicatie
Link-deduplicatie per domein
Domeinen extraheren
Tags verwijderen uit ankers en snippets
Links filteren op aanwezigheid
Mogelijke instellingen
| Naam parameter | Standaardwaarde | Beschrijving |
|---|---|---|
| Pages count | 5 | Aantal pagina's voor gegevensextractie (van 1 tot 50) |
| Family filter | Filter depending on search | Keuze van filterniveau (Filter all results / Filter depending on search / Do not filter my results) |
| Period | Any time | Keuze van de periode van de resultaten (Any time / Past 24 hours / Past week / Past month / Past year) |
| Links per page | 10 | Omvang van de resultaten (10 / 20) |
| Results language | English | Keuze van de taal van de resultaten |
| Page language | English | Keuze van de paginataal |
| Search country | All | Keuze van het land van waaruit de zoekopdracht wordt uitgevoerd |