Ga naar de hoofdinhoud

FreeAI::Perplexity - Scraper voor de AI-dienst Perplexity

Perplexity

Overzicht van de scraper

De Perplexity scraper is een modern hulpmiddel voor het verzamelen van gestructureerde informatie uit een van de snelst groeiende AI-zoekmachines. Dankzij de integratie met Perplexity ontvangt u niet alleen lijsten met links, maar actuele, beknopte en relevante antwoorden gebaseerd op een groot aantal bronnen, waaronder wetenschappelijke artikelen, blogs, forums en nieuwsportalen.

De Perplexity scraper ondersteunt natuurlijke taalvragen, inclusief verduidelijkingen, contextuele vragen en geneste constructies. De scraper biedt de mogelijkheid om relevante vragen te scrapen door deze automatisch aan de wachtrij toe te voegen, waardoor de hoeveelheid verzamelde informatie aanzienlijk wordt uitgebreid.

De verwerkingssnelheid bereikt 500–800 verzoeken per minuut dankzij de multithreading-modus. Afhankelijk van de configuratie en de gebruikte presets kunt u binnen enkele minuten duizenden unieke tekstfragmenten en links verkrijgen.

De resultaten kunnen in elk gewenst formaat worden opgeslagen dankzij de krachtige sjabloon-engine Template Toolkit, waarmee u gegevens kunt structureren in JSON, CSV, SQL en andere formaten, en direct filtering, sortering en aggregatie van gegevens kunt toepassen.

De Perplexity scraper is ideaal voor taken zoals concurrentieanalyse, het verzamelen van feiten en citaten, het creëren van kennisbanken, nieuwsmonitoring en thema-analyse, dankzij de hoge kwaliteit en context van de geleverde resultaten.

Verzamelde gegevens

  • Antwoordtekst (in Markdown-opmaak)
  • Links, ankers en snippets van gegevensbronnen
  • Lijst met gerelateerde vragen

Mogelijkheden

  • Keuze van het type informatiebron (meervoudige selectie ondersteund)
  • Toevoegen van gerelateerde vragen aan de wachtrij tot een opgegeven diepte
  • Omzeilen van beveiligingen en ondersteuning voor sessies voor een stabielere en snellere werking

Varianten van gebruik

  • Verzamelen van gestructureerde antwoorden op thematische vragen voor het maken van kennisbanken, contentplannen, informatiesystemen en het genereren van FAQ's
  • Extraheren van links naar bronnen met ankers en snippets - ideaal voor het opbouwen van lijsten met autoritaire bronnen, citeren en het verzamelen van backlinks
  • Verzamelen van gerelateerde/verduidelijkende vragen uit de Perplexity-output - nuttig voor het analyseren van gebruikersinteresse, het vormen van een semantische kern en het genereren van ideeën voor artikelen
  • Monitoring van vermeldingen van merken, producten of personen - gekoppeld aan context en bronnen
  • Zoeken en analyseren van expertmeningen, trends en inzichten uit autoritaire bronnen
  • Snelle controle van de actualiteit en volledigheid van informatie over belangrijke onderwerpen
  • Automatisering van concurrentieanalyse: welke bronnen worden geciteerd, welke onderwerpen worden behandeld en hoe vaak
  • Ondersteuning van onderzoeks- en analyseprojecten die de aggregatie van nauwkeurige informatie uit verschillende bronnen vereisen
  • Alle andere taken waarbij het nodig is om snel korte, nauwkeurige antwoorden te krijgen met bevestiging van echte bronnen en logische context

Zoekopdrachten

Als zoekopdrachten moeten zoektermen worden opgegeven, precies zoals ze rechtstreeks in het zoekveld van Perplexity zouden worden ingevoerd, bijvoorbeeld:

Hoe leer ik snel leren?
Hoe verbeter ik mijn geheugen en concentratie?
Wat is een scraper?
TOP 10 websites van het Russische internet

Resultaten

ter informatie

Hier en verder zijn de voorbeeldresultaten ingekort voor een betere overzichtelijkheid

Standaard worden de zoekopdracht en het bijbehorende antwoord weergegeven, bijvoorbeeld:

Wat is een scraper?
Een scraper is een programma of script dat automatisch informatie verzamelt, analyseert en systematiseert uit verschillende bronnen, meestal van websites[1][2][5][7]. De hoofdtaak van een scraper is het extraheren van de benodigde gegevens (bijvoorbeeld teksten, prijzen, contacten, afbeeldingen) uit gestructureerde of semi-gestructureerde gegevensverzamelingen, zoals HTML-pagina's, databases, tekstbestanden en andere formaten[1][5][6].

**Hoe werkt een scraper:**
- Scant de opgegeven gegevensbronnen (bijvoorbeeld webpagina's).
...

TOP 10 websites van het Russische internet
## TOP-10 websites van het Russische internet per juni 2025

Op basis van recente gegevens van Similarweb en andere analytische bronnen, bevat de lijst met meest bezochte websites van het Russische segment van het internet de volgende bronnen:

1. **Yandex.ru** — de grootste Russische zoekmachine en internetportaal[2][6].
2. **Google.com** — een wereldwijde zoekmachine die ook in Rusland actief wordt gebruikt[2][6].
...

### Tabel ter verduidelijking

| Plaats | Website | Hoofdfunctie |
|-------|----------------|------------------------------|
| 1 | yandex.ru | Zoeken, diensten, portaal |
| 2 | google.com | Zoeken |
...

Opties voor resultaatweergave

A-Parser ondersteunt flexibele formattering van resultaten dankzij de ingebouwde sjabloon-engine Template Toolkit, waardoor resultaten in een vrije vorm kunnen worden weergegeven, evenals in gestructureerde formaten zoals CSV of JSON.

Export van een lijst met links

Resultaatformaat:

$sources.format('$link\n')

Voorbeeldresultaat:

https://ru.wikipedia.org/wiki/%D0%91%D0%B8%D1%82%D0%BA%D0%BE%D0%B9%D0%BD
https://www.kaspersky.ru/resource-center/definitions/what-is-bitcoin
https://dzengi.com/ru/chto-takoe-bitcoin-prostim-yazikom
https://www.sberbank.ru/ru/person/kibrary/vocabulary/bitkoin
https://help.cryptopay.me/ru/articles/3414939-%D1%87%D1%82%D0%BE-%D1%82%D0%B0%D0%BA%D0%BE%D0%B5-%D0%B1%D0%B8%D1%82%D0%BA%D0%BE%D0%B8%D0%BD
...

Uitvoer naar CSV van links, ankers en snippets met hun posities

Resultaatformaat:

[% FOREACH item IN sources;
tools.CSVline(loop.count, item.link, item.anchor, item.snippet);
END %]

Voorbeeldresultaat:

...
6,https://www.kraken.com/ru/learn/what-is-bitcoin-btc,"Wat is Bitcoin (BTC)? volledige gids - Kraken","Leer meer over de gedecentraliseerde aard van Bitcoin, het beperkte aanbod en zijn rol als digitale valuta. Ontdek wat de basis is van BTC, wat de kernprincipes en gebruiksscenario's zijn."
7,https://www.vedomosti.ru/finance/articles/2024/09/23/1064026-bitkoin,"Wat is bitcoin en waarvoor is het nodig - Vedomosti","Dit is een digitale valuta die wordt gebruikt als betaalmiddel en financieel activum"
8,https://forklog.com/cryptorium/chto-takoe-bitkoin,"Wat is bitcoin en hoe werkt het in eenvoudige woorden? - ForkLog","Bitcoin — is een gedecentraliseerd systeem gebaseerd op het principe van directe uitwisseling tussen gebruikers. Voor transacties wordt de gelijknamige cryptovaluta BTC gebruikt."
tip

In het Algemene resultaatformaat wordt de sjabloon-engine Template Toolkit gebruikt om de array $sources in een FOREACH-lus weer te geven.

In de naam van het resultaatbestand hoeft u alleen de bestandsextensie te wijzigen naar csv.

Uitvoer naar JSON van de vraag, het antwoord en de lijst met gerelateerde vragen

Algemeen resultaatformaat:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.answer = p1.answer;
obj.related = [];

FOREACH item IN p1.related;
obj.related.push(item.text);
END;

obj.json %]

Begintekst:

[

Eindtekst:

]

Voorbeeldresultaat:

[{"related":["Waarom bitcoin beschouwd als de eerste cryptovaluta en waarin verschilt het van traditioneel geld","Hoe werkt de blockchain-technologie die ten grondslag ligt aan bitcoin","Welke cryptografische methoden beschermen transacties in het bitcoin-systeem","Wat maakt de beperking van 21 miljoen munten bitcoin tot een uniek activum","Welke voordelen biedt decentralisatie en het ontbreken van tussenpersonen bij het gebruik van bitcoin"],"answer":"**Bitcoin** (Bitcoin, BTC) — is de eerste en bekendste cryptovaluta, een gedecentraliseerd digitaal betalingssysteem gebaseerd op blockchain-technologie. In dit systeem worden alle transacties vastgelegd in een openbaar register (blockchain), dat is beveiligd met cryptografische methoden en door elke netwerkdeelnemer kan worden gecontroleerd[1][3][4].\n...","query":"Wat is bitcoin?"},{"related":["Wat zijn de belangrijkste regels en tips om goed te googelen","Waarom is het belangrijk om vragen en complexe zinnen te vermijden bij het zoeken","Hoe gebruik je de Engelse taal voor effectiever zoeken in Google","Welke operatoren en symbolen helpen bij het uitbreiden of verfijnen van een zoekopdracht","Wat is het verschil tussen het gebruik van aanhalingstekens en de tilde bij het zoeken naar informatie"],"answer":"## Hoe goed te googelen: belangrijkste tips\n\n**Formuleer zoekopdrachten kort en bondig**\n- Gebruik 2–6 trefwoorden, vermijd lange vragen en complexe zinnen. Bijvoorbeeld, in plaats van \"wat moet ik doen als het internet niet werkt op mijn computer met windows?\" gebruik \"internet werkt niet windows hoe te herstellen\"[1].\n\n**Zoek naar exacte woordgroepen**\n...","query":"Hoe goed te googelen?"}]

Mogelijke instellingen

Naam parameterStandaardwaardeBeschrijving
SourcesWebType informatiebron (meervoudige selectie ondersteund)
Use sessionsSlaat goede sessies op, waardoor het scrapen nog sneller gaat met minder fouten
Bypass CloudFlareAutomatische omzeiling van CloudFlare-beveiliging
Bypass CloudFlare Browser Max Pages10Max. aantal pagina's bij het omzeilen van CF
Bypass CloudFlare Browser HeadlessAls deze optie is ingeschakeld, wordt de browser niet weergegeven tijdens het omzeilen van CF