Przejdź do treści głównej

FreeAI::Perplexity - Scraper serwisu AI Perplexity

Perplexity

Przegląd scrapera

Scraper Perplexity to nowoczesne narzędzie do zbierania ustrukturyzowanych informacji z jednej z najszybciej rozwijających się wyszukiwarek AI. Dzięki integracji z Perplexity otrzymujesz nie tylko listy linków, ale aktualne, zwięzłe i trafne odpowiedzi oparte na dużej liczbie źródeł, w tym artykułach naukowych, blogach, forach i portalach informacyjnych.

Scraper Perplexity obsługuje zapytania w języku naturalnym, w tym doprecyzowania, pytania kontekstowe i konstrukcje zagnieżdżone. Scraper daje możliwość scrapowania powiązanych pytań, automatycznie dodając je do kolejki zapytań, co znacznie zwiększa ilość zebranych informacji.

Prędkość przetwarzania sięga 500–800 zapytań na minutę dzięki wielowątkowemu trybowi pracy. W zależności od konfiguracji i użytych presetów, możesz uzyskać tysiące unikalnych fragmentów tekstu i linków w ciągu kilku minut.

Wyniki można zapisywać w dowolnym formacie dzięki potężnemu silnikowi szablonów Template Toolkit, który pozwala strukturyzować dane w formatach JSON, CSV, SQL i innych, a także stosować filtrowanie, sortowanie i agregację danych w locie.

Scraper Perplexity idealnie nadaje się do zadań wywiadu konkurencyjnego, zbierania faktów i cytatów, tworzenia baz wiedzy, monitorowania wiadomości i analizy tematów, dzięki wysokiej jakości i kontekstowości dostarczanych wyników.

Zbierane dane

  • Tekst odpowiedzi (w formacie Markdown)
  • Linki, anchory i snippety źródeł danych
  • Lista podobnych pytań

Możliwości

  • Wybór typu źródła informacji (obsługiwany wybór wielokrotny)
  • Dodawanie podobnych pytań do kolejki zapytań do określonej głębokości
  • Omijanie zabezpieczeń i obsługa sesji dla stabilniejszej i szybszej pracy

Warianty użycia

  • Zbieranie ustrukturyzowanych odpowiedzi na zapytania tematyczne w celu tworzenia baz wiedzy, planów treści, systemów referencyjnych i generowania FAQ
  • Wyodrębnianie linków do źródeł wraz z anchorami i snippetami - idealne do budowania list autorytatywnych zasobów, cytowania i zbierania linków zwrotnych
  • Zbieranie podobnych/doprecyzowujących pytań z wyników Perplexity - przydatne do analizy zainteresowań użytkowników, budowania rdzenia semantycznego i generowania pomysłów na artykuły
  • Monitorowanie wzmianek o markach, produktach lub osobach - z powiązaniem z kontekstem i źródłami
  • Wyszukiwanie i analiza opinii eksperckich, trendów i spostrzeżeń z autorytatywnych źródeł
  • Szybkie sprawdzanie aktualności i kompletności informacji na kluczowe tematy
  • Automatyzacja analizy konkurencji: jakie zasoby są cytowane, jakie tematy są poruszane i jak często
  • Wsparcie projektów badawczych i analitycznych wymagających agregacji dokładnych informacji z różnych źródeł
  • Wszelkie inne zadania, w których wymagane jest szybkie uzyskanie krótkich, dokładnych odpowiedzi z potwierdzeniem z realnych źródeł i kontekstem logicznym

Zapytania

Jako zapytania należy podawać frazy wyszukiwania, dokładnie tak samo, jakby były wpisywane bezpośrednio w formularzu wyszukiwania Perplexity, na przykład:

Jak nauczyć się szybko uczyć?
Jak poprawić pamięć i koncentrację?
Co to jest scraper?
TOP10 stron rosyjskiego internetu

Wyniki

do wiadomości

Tutaj i poniżej przykłady wyników zostały skrócone dla lepszej przejrzystości

Domyślnie wyświetlane jest zapytanie i odpowiedź na nie, na przykład:

Co to jest scraper?
Scraper — to program lub skrypt, który automatycznie zbiera, analizuje i systematyzuje informacje z różnych źródeł, najczęściej ze stron internetowych[1][2][5][7]. Głównym zadaniem scrapera — wyodrębnienie potrzebnych danych (na przykład tekstów, cen, kontaktów, obrazów) z ustrukturyzowanych lub półstrukturalnych zbiorów informacji, takich jak strony HTML, bazy danych, pliki tekstowe i inne formaty[1][5][6].

**Jak działa scraper:**
- Skanuje wskazane źródła danych (na przykład strony internetowe).
...

TOP10 stron rosyjskiego internetu
## TOP-10 stron Runetu na czerwiec 2025

Na podstawie najświeższych danych Similarweb i innych zasobów analitycznych, na liście najczęściej odwiedzanych witryn rosyjskiego segmentu internetu (Runetu) znajdują się następujące zasoby:

1. **Yandex.ru** — największa rosyjska wyszukiwarka i portal internetowy[2][6].
2. **Google.com** — globalna wyszukiwarka, z której aktywnie korzysta się również w Rosji[2][6].
...

### Tabela dla przejrzystości

| Miejsce | Strona | Główna funkcja |
|-------|----------------|------------------------------|
| 1 | yandex.ru | Wyszukiwanie, usługi, portal |
| 2 | google.com | Wyszukiwanie |
...

Warianty wyświetlania wyników

A-Parser obsługuje elastyczne formatowanie wyników dzięki wbudowanemu silnikowi szablonów Template Toolkit, co pozwala mu wyświetlać wyniki w dowolnej formie, a także w formie ustrukturyzowanej, np. CSV lub JSON.

Eksport listy linków

Format wyniku:

$sources.format('$link\n')

Przykład wyniku:

https://ru.wikipedia.org/wiki/%D0%91%D0%B8%D1%82%D0%BA%D0%BE%D0%B9%D0%BD
https://www.kaspersky.ru/resource-center/definitions/what-is-bitcoin
https://dzengi.com/ru/chto-takoe-bitcoin-prostim-yazikom
https://www.sberbank.ru/ru/person/kibrary/vocabulary/bitkoin
https://help.cryptopay.me/ru/articles/3414939-%D1%87%D1%82%D0%BE-%D1%82%D0%B0%D0%BA%D0%BE%D0%B5-%D0%B1%D0%B8%D1%82%D0%BA%D0%BE%D0%B8%D0%BD
...

Eksport do CSV linków, anchorów i snippetów z ich pozycjami

Format wyniku:

[% FOREACH item IN sources;
tools.CSVline(loop.count, item.link, item.anchor, item.snippet);
END %]

Przykład wyniku:

...
6,https://www.kraken.com/ru/learn/what-is-bitcoin-btc,"Co to jest Bitcoin (BTC)? pełny przewodnik - Kraken","Dowiedz się o zdecentralizowanej naturze Bitcoin, ograniczonej podaży i jego roli jako waluty cyfrowej. Dowiedz się, co leży u podstaw BTC, jakie są jego główne zasady i warianty użycia."
7,https://www.vedomosti.ru/finance/articles/2024/09/23/1064026-bitkoin,"Co to jest bitcoin i po co jest potrzebny - Vedomosti","To waluta cyfrowa, używana jako środek płatniczy i aktywo finansowe"
8,https://forklog.com/cryptorium/chto-takoe-bitkoin,"Co to jest bitcoin i jak działa w prostych słowach? - ForkLog","Bitcoin — to zdecentralizowany system oparty na zasadzie bezpośredniej wymiany między użytkownikami. Do transakcji używana jest kryptowaluta o tej samej nazwie BTC."
wskazówka

W Ogólnym formacie wyników stosowany jest szablonator Template Toolkit do wyprowadzania tablicy $sources w pętli FOREACH.

W nazwie pliku wyników wystarczy zmienić rozszerzenie pliku na csv.

Eksport do JSON pytania, odpowiedzi i listy podobnych pytań

Ogólny format wyniku:

[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;

obj = {};
obj.query = query;
obj.answer = p1.answer;
obj.related = [];

FOREACH item IN p1.related;
obj.related.push(item.text);
END;

obj.json %]

Tekst początkowy:

[

Tekst końcowy:

]

Przykład wyniku:

[{"related":["Dlaczego bitcoin jest uważany za pierwszą kryptowalutę i czym różni się od tradycyjnych pieniędzy","Jak działa technologia blockchain leżąca u podstaw bitcoina","Jakie metody kryptograficzne chronią transakcje w systemie bitcoin","Dlaczego ograniczenie do 21 milionów monet czyni bitcoin unikalnym aktywem","Jakie korzyści daje decentralizacja i brak pośredników przy używaniu bitcoina"],"answer":"**Bitcoin** (Bitcoin, BTC) — to pierwsza i najbardziej znana kryptowaluta, będąca zdecentralizowanym cyfrowym systemem płatności opartym na technologii blockchain. W tym systemie wszystkie transakcje są zapisywane w publicznym rejestrze (blockchain), który jest chroniony metodami kryptograficznymi i dostępny do sprawdzenia dla każdego uczestnika sieci[1][3][4].\n...","query":"Co to jest bitcoin?"},{"related":["Jakie główne zasady i wskazówki pomagają poprawnie googlować","Dlaczego ważne jest unikanie pytań i złożonych zdań podczas wyszukiwania","Jak używać języka angielskiego dla skuteczniejszego wyszukiwania w Google","Jakie operatory i symbole pomagają rozszerzyć lub doprecyzować wyszukiwanie","Czym różni się użycie cudzysłowu i tyldy przy wyszukiwaniu informacji"],"answer":"## Jak poprawnie googlować: główne wskazówki\n\n**Formułuj zapytania krótko i na temat**\n- Używaj 2–6 słów kluczowych, unikaj długich pytań i złożonych zdań. Na przykład, zamiast \"co zrobić jeśli nie działa internet na moim komputerze z windows?\" użyj \"nie działa internet windows jak naprawić\"[1].\n\n**Szukaj dokładnych fraz**\n...","query":"Jak poprawnie googlować?"}]

Możliwe ustawienia

Nazwa parametruWartość domyślnaOpis
SourcesWebTyp źródła informacji (obsługiwany wybór wielokrotny)
Use sessionsZapisuje dobre sesje, co pozwala na jeszcze szybsze scrapowanie przy mniejszej liczbie błędów
Bypass CloudFlareAutomatyczne omijanie zabezpieczeń CloudFlare
Bypass CloudFlare Browser Max Pages10Maks. liczba stron przy omijaniu CF
Bypass CloudFlare Browser HeadlessJeśli opcja jest włączona, przeglądarka nie będzie wyświetlana podczas omijania CF