FreeAI::Perplexity - Perplexity AI Servisi Veri Kazıyıcı

Veri Kazıyıcı Genel Bakış
Perplexity veri kazıyıcı, en hızlı gelişen yapay zeka arama motorlarından birinden yapılandırılmış bilgi toplamak için modern bir araçtır. Perplexity ile entegrasyon sayesinde, yalnızca bağlantı listeleri değil; bilimsel makaleler, bloglar, forumlar ve haber portalları dahil olmak üzere çok sayıda kaynağa dayalı güncel, özetlenmiş ve alakalı yanıtlar alırsınız.
Perplexity veri kazıyıcı, açıklamalar, bağlamsal sorular ve iç içe geçmiş yapılar dahil olmak üzere doğal dil sorgularını destekler. Veri kazıyıcı, ilgili soruları çekme ve bunları otomatik olarak sorgu kuyruğuna ekleme imkanı sunarak toplanan bilgi miktarını önemli ölçüde artırır.
Çoklu iş parçacığı modu sayesinde işlem hızı dakikada 500–800 sorguya ulaşır. Yapılandırmaya ve kullanılan ön ayarlara bağlı olarak, birkaç dakika içinde binlerce benzersiz metin parçası ve bağlantı elde edebilirsiniz.
Sonuç çıktıları, verileri JSON, CSV, SQL ve diğer formatlarda yapılandırmanıza, ayrıca anında filtreleme, sıralama ve veri toplama uygulamanıza olanak tanıyan güçlü Template Toolkit şablonlayıcı sayesinde istenen herhangi bir formatta kaydedilebilir.
Perplexity veri kazıyıcı; sunulan sonuçların yüksek kalitesi ve bağlamsallığı sayesinde rekabet istihbaratı, gerçekleri ve alıntıları toplama, bilgi tabanları oluşturma, haber izleme ve konu analizi görevleri için idealdir.
Toplanan Veriler
- Yanıt metni (Markdown formatında)
- Veri kaynaklarının bağlantıları, çıpaları (anchor) ve snippet'leri
- Benzer soruların listesi
Özellikler
- Bilgi kaynağı türü seçimi (çoklu seçim desteklenir)
- Benzer soruların belirtilen derinliğe kadar sorgu kuyruğuna eklenmesi
- Daha kararlı ve hızlı çalışma için korumaları atlatma ve oturum desteği
Kullanım Durumları
- Bilgi tabanları, içerik planları, yardım sistemleri ve SSS oluşturma için tematik sorgulara göre yapılandırılmış yanıtların toplanması
- Çıpalar ve snippet'ler ile birlikte kaynak bağlantılarının çıkarılması - yetkili kaynak listeleri oluşturmak, alıntı yapmak ve geri bağlantı (backlink) toplamak için idealdir
- Perplexity sonuçlarından benzer/detaylandırıcı soruların toplanması - kullanıcı ilgisini analiz etmek, semantik çekirdek oluşturmak ve makale fikirleri üretmek için yararlıdır
- Marka, ürün veya kişi anmalarının bağlam ve kaynaklarla ilişkilendirilerek izlenmesi
- Yetkili kaynaklardan uzman görüşlerinin, trendlerin ve içgörülerin aranması ve analizi
- Temel konulardaki bilgilerin güncelliğinin ve eksiksizliğinin hızlı kontrolü
- Rakip analizinin otomatizasyonu: hangi kaynaklara atıfta bulunuluyor, hangi konular ele alınıyor ve ne sıklıkla
- Farklı kaynaklardan doğru bilgilerin toplanmasını gerektiren araştırma ve analiz projelerinin desteklenmesi
- Gerçek kaynaklardan onaylanmış ve mantıksal bağlama sahip kısa, kesin yanıtların hızlıca alınmasını gerektiren diğer tüm görevler
Sorgular
Sorgu olarak, doğrudan Perplexity arama formuna giriliyormuş gibi arama sorguları belirtilmelidir, örneğin:
Nasıl hızlı öğrenilir?
Hafıza ve konsantrasyon nasıl geliştirilir?
Veri kazıyıcı nedir?
Runet'in EN İYİ 10 sitesi
Sonuçlar
Burada ve devamında sonuç örnekleri daha iyi anlaşılması için kısaltılmıştır
Varsayılan olarak sorgu ve ona verilen yanıt görüntülenir, örneğin:
Veri kazıyıcı nedir?
Veri kazıyıcı — genellikle web siteleri olmak üzere çeşitli kaynaklardan bilgileri otomatik olarak toplayan, analiz eden ve sistematize eden bir program veya betiktir[1][2][5][7]. Bir veri kazıyıcının temel görevi, HTML sayfaları, veri tabanları, metin dosyaları ve diğer formatlar gibi yapılandırılmış veya yarı yapılandırılmış bilgi yığınlarından gerekli verileri (örneğin metinler, fiyatlar, kişiler, görseller) ayıklamaktır[1][5][6].
**Veri kazıyıcı nasıl çalışır:**
- Belirtilen veri kaynaklarını (örneğin web sayfalarını) tarar.
...
Runet'in EN İYİ 10 sitesi
## Haziran 2025 itibarıyla Runet'in EN İYİ 10 sitesi
Similarweb ve diğer analitik kaynaklardan alınan güncel verilere dayanarak, internetin Rusça segmentindeki (Runet) en çok ziyaret edilen siteler listesinde şu kaynaklar yer almaktadır:
1. **Yandex.ru** — Rusya'nın en büyük arama motoru ve internet portalı[2][6].
2. **Google.com** — Rusya'da da aktif olarak kullanılan küresel arama motoru[2][6].
...
### Görselleştirme için tablo
| Sıra | Site | Temel İşlev |
|-------|----------------|------------------------------|
| 1 | yandex.ru | Arama, servisler, portal |
| 2 | google.com | Arama |
...
Sonuç Çıktı Seçenekleri
A-Parser, yerleşik Template Toolkit şablonlayıcı sayesinde sonuçların esnek bir şekilde formatlanmasını destekler; bu da sonuçları serbest formda veya CSV ya da JSON gibi yapılandırılmış formatlarda sunmasına olanak tanır.
Bağlantı Listesi Dışa Aktarımı
Sonuç formatı:
$sources.format('$link\n')
Sonuç örneği:
https://ru.wikipedia.org/wiki/%D0%91%D0%B8%D1%82%D0%BA%D0%BE%D0%B9%D0%BD
https://www.kaspersky.ru/resource-center/definitions/what-is-bitcoin
https://dzengi.com/ru/chto-takoe-bitcoin-prostim-yazikom
https://www.sberbank.ru/ru/person/kibrary/vocabulary/bitkoin
https://help.cryptopay.me/ru/articles/3414939-%D1%87%D1%82%D0%BE-%D1%82%D0%B0%D0%BA%D0%BE%D0%B5-%D0%B1%D0%B8%D1%82%D0%BA%D0%BE%D0%B8%D0%BD
...
Bağlantıların, Çıpaların ve Snippet'lerin Pozisyonlarıyla Birlikte CSV Olarak Çıktısı
Sonuç formatı:
[% FOREACH item IN sources;
tools.CSVline(loop.count, item.link, item.anchor, item.snippet);
END %]
Sonuç örneği:
...
6,https://www.kraken.com/ru/learn/what-is-bitcoin-btc,"Bitcoin (BTC) nedir? tam rehber - Kraken","Bitcoin'in merkeziyetsiz yapısı, sınırlı arzı ve dijital para birimi olarak rolü hakkında bilgi edinin. BTC'nin temelinde ne yattığını, temel ilkelerinin ve kullanım durumlarının neler olduğunu öğrenin."
7,https://www.vedomosti.ru/finance/articles/2024/09/23/1064026-bitkoin,"Bitcoin nedir ve neden gereklidir - Vedomosti","Bu, ödeme aracı ve finansal varlık olarak kullanılan dijital bir para birimidir"
8,https://forklog.com/cryptorium/chto-takoe-bitkoin,"Bitcoin nedir ve basit kelimelerle nasıl çalışır? - ForkLog","Bitcoin — kullanıcılar arasında doğrudan değişim ilkesine dayanan merkeziyetsiz bir sistemdir. İşlemler için aynı adlı BTC kripto para birimi kullanılır."
Genel sonuç formatında, $sources dizisini bir FOREACH döngüsü içinde yazdırmak için Template Toolkit şablonlayıcı kullanılır.
Sonuç dosyasının adında dosya uzantısını csv olarak değiştirmeniz yeterlidir.
Soru, Yanıt ve Benzer Sorular Listesinin JSON Olarak Çıktısı
Genel sonuç formatı:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.answer = p1.answer;
obj.related = [];
FOREACH item IN p1.related;
obj.related.push(item.text);
END;
obj.json %]
Başlangıç metni:
[
Bitiş metni:
]
Sonuç örneği:
[{"related":["Bitcoin neden ilk kripto para birimi olarak kabul ediliyor ve geleneksel paradan farkı nedir","Bitcoin'in temelindeki blok zinciri teknolojisi nasıl çalışır","Bitcoin sistemindeki işlemleri hangi kriptografik yöntemler korur","21 milyon madeni para sınırı Bitcoin'i neden benzersiz bir varlık yapar","Bitcoin kullanırken merkeziyetsizlik ve aracıların olmaması ne gibi avantajlar sağlar"],"answer":"**Bitcoin** (Bitcoin, BTC) — blok zinciri teknolojisine dayanan, merkeziyetsiz bir dijital ödeme sistemi olan ilk ve en tanınmış kripto para birimidir. Bu sistemde tüm işlemler, kriptografik yöntemlerle korunan ve ağın herhangi bir katılımcısı tarafından doğrulanabilen halka açık bir deftere (blok zinciri) kaydedilir[1][3][4].\n...","query":"Bitcoin nedir?"},{"related":["Doğru şekilde Google araması yapmaya yardımcı olan temel kurallar ve ipuçları nelerdir","Arama yaparken neden sorulardan ve karmaşık cümlelerden kaçınmak önemlidir","Google'da daha etkili arama yapmak için İngilizce nasıl kullanılır","Hangi operatörler ve semboller aramayı genişletmeye veya detaylandırmaya yardımcı olur","Bilgi ararken tırnak işareti ve tilde kullanımı arasındaki fark nedir"],"answer":"## Doğru şekilde Google araması nasıl yapılır: temel ipuçları\n\n**Sorguları kısa ve öz formüle edin**\n- 2–6–6 anahtar kelime kullanın, uzun sorulardan ve karmaşık cümlelerden kaçının. Örneğin, \"bilgisayarımda windows internet çalışmıyorsa ne yapmalıyım?\" yerine \"windows internet çalışmıyor nasıl düzeltilir\" kullanın[1].\n\n**Tam ifadeleri arayın**\n...","query":"Doğru şekilde Google araması nasıl yapılır?"}]
Olası Ayarlar
| Parametre adı | Varsayılan değer | Açıklama |
|---|---|---|
| Sources | Web | Bilgi kaynağı türü (çoklu seçim desteklenir) |
| Use sessions | ☑ | İyi oturumları kaydederek daha az hata ile daha hızlı veri çekilmesini sağlar |
| Bypass CloudFlare | ☑ | CloudFlare korumasını otomatik atlatma |
| Bypass CloudFlare Browser Max Pages | 10 | CF atlatma sırasında maks. sayfa sayısı |
| Bypass CloudFlare Browser Headless | ☑ | Seçenek etkinse, CF atlatma sırasında tarayıcı görüntülenmez |