FreeAI::Perplexity - Perplexity AIサービスのスクレイパー

スクレイパーの概要
Perplexity スクレイパーは、最も急速に成長しているAI検索エンジンの1つから構造化された情報を収集するための最新ツールです。Perplexityとの統合により、単なるリンクのリストではなく、学術論文、ブログ、フォーラム、ニュースポータルを含む膨大なソースに基づいた、最新で簡潔かつ関連性の高い回答を得ることができます。
Perplexity スクレイパーは、詳細な質問、文脈に応じた質問、入れ子構造を含む自然言語クエリをサポートしています。このスクレイパーは、関連する質問をスクレイピングし、それらを自動的にクエリキューに追加する機能を提供しており、収集される情報の量を大幅に拡大します。
マルチスレッドモードにより、処理速度は毎分500~800クエリに達します。設定や使用するプリセットに応じて、数分以内に数千のユニークなテキスト断片やリンクを取得できます。
強力なテンプレートエンジン Template Toolkit により、結果を任意の形式で保存できます。これにより、データを JSON, CSV, SQL などの形式に構造化したり、フィルタリング、ソート、集計をオンザフライで適用したりすることが可能です。
Perplexity スクレイパーは、提供される結果の品質と文脈の正確さから、競合調査、事実や引用の収集、ナレッジベースの作成、ニュースモニタリング、トピック分析などのタスクに最適です。
収集データ
- 回答テキスト(Markdown形式)
- データソースのリンク、アンカー、スニペット
- 関連する質問のリスト
機能
- 情報ソースのタイプの選択(複数選択可)
- 指定した深度まで関連する質問をクエリキューに追加
- より安定した高速な動作のための保護回避とセッションサポート
ユースケース
- ナレッジベース、コンテンツプラン、ヘルプシステム、FAQ生成のためのテーマ別クエリによる構造化された回答の収集
- アンカーとスニペットを含むソースへのリンクの抽出 - 権威あるリソースのリスト作成、引用、バックリンク収集に最適
- Perplexityの結果からの関連/詳細質問の収集 - ユーザーの関心分析、セマンティックコアの形成、記事のアイデア生成に有用
- 文脈とソースに関連付けたブランド、製品、人物の言及のモニタリング
- 権威あるソースからの専門家の意見、トレンド、インサイトの検索と分析
- 主要なトピックに関する情報の最新性と完全性の迅速な確認
- 競合分析の自動化:どのリソースが引用されているか、どのトピックがカバーされているか、その頻度
- さまざまなソースからの正確な情報の集約を必要とする研究および分析プロジェクトのサポート
- 実際のソースからの裏付けと論理的な文脈を伴う、簡潔で正確な回答を迅速に取得する必要があるその他のタスク
クエリ
クエリには、Perplexityの検索フォームに直接入力する場合と同じように、検索クエリを指定する必要があります。例:
効率的に学習する方法を学ぶには?
記憶力と集中力を向上させるには?
スクレイパーとは何ですか?
ロシア語圏インターネットのサイトTOP10
結果
以下、結果の例は分かりやすくするために短縮されています
デフォルトでは、クエリとその回答が出力されます。例:
スクレイパーとは何ですか?
スクレイパーとは、さまざまなソース(主にウェブサイト)から情報を自動的に収集、分析、体系化するプログラムまたはスクリプトのことです[1][2][5][7]。スクレイパーの主なタスクは、HTMLページ、データベース、テキストファイルなどの構造化または半構造化された情報データから、必要なデータ(テキスト、価格、連絡先、画像など)を抽出することです[1][5][6]。
**スクレイパーの仕組み:**
- 指定されたデータソース(ウェブページなど)をスキャンします。
...
ロシア語圏インターネットのサイトTOP10
## 2025年6月時点のロシア語圏インターネット(Runet)サイトTOP10
Similarwebやその他の分析リソースの最新データに基づき、ロシア語圏インターネット(Runet)で最も訪問者数の多いサイトのリストには、以下のリソースが含まれます。
1. **Yandex.ru** — ロシア最大の検索エンジンおよびインターネットポータル[2][6]。
2. **Google.com** — ロシアでも活発に利用されているグローバル検索エンジン[2][6]。
...
### 比較表
| 順位 | サイト | 主な機能 |
|-------|----------------|------------------------------|
| 1 | yandex.ru | 検索、サービス、ポータル |
| 2 | google.com | 検索 |
...
結果の出力オプション
A-Parserは、内蔵のテンプレートエンジン Template Toolkit により柔軟な結果フォーマットをサポートしており、任意の形式や、CSVやJSONなどの構造化された形式で結果を出力できます。
リンクの一覧をエクスポート
結果フォーマット:
$sources.format('$link\n')
結果の例:
https://ru.wikipedia.org/wiki/%D0%91%D0%B8%D1%82%D0%BA%D0%BE%D0%B9%D0%BD
https://www.kaspersky.ru/resource-center/definitions/what-is-bitcoin
https://dzengi.com/ru/chto-takoe-bitcoin-prostim-yazikom
https://www.sberbank.ru/ru/person/kibrary/vocabulary/bitkoin
https://help.cryptopay.me/ru/articles/3414939-%D1%87%D1%82%D0%BE-%D1%82%D0%B0%D0%BA%D0%BE%D0%B5-%D0%B1%D0%B8%D1%82%D0%BA%D0%BE%D0%B8%D0%BD
...
リンク、アンカー、スニペットをその位置とともにCSVで出力
結果フォーマット:
[% FOREACH item IN sources;
tools.CSVline(loop.count, item.link, item.anchor, item.snippet);
END %]
結果の例:
...
6,https://www.kraken.com/ru/learn/what-is-bitcoin-btc,"Bitcoin (BTC) とは何ですか?完全ガイド - Kraken","ビットコインの分散型の性質、限定された供給量、およびデジタル通貨としての役割について学びます。BTCの核心にあるもの、その基本原則、およびユースケースを確認してください。"
7,https://www.vedomosti.ru/finance/articles/2024/09/23/1064026-bitkoin,"ビットコインとは何か、なぜ必要なのか - Vedomosti","これは支払い手段および金融資産として使用されるデジタル通貨です"
8,https://forklog.com/cryptorium/chto-takoe-bitkoin,"ビットコインとは何か、どのように機能するのかを簡単に解説 - ForkLog","ビットコイン — とは、ユーザー間の直接交換の原則に基づいた分散型システムです。取引には同名の暗号資産BTCが使用されます。"
結果の全般設定では、FOREACH ループで $sources 配列を出力するために Template Toolkit テンプレートエンジン が使用されます。
結果ファイル名で、ファイルの拡張子を csv に変更するだけです。
質問、回答、関連する質問のリストをJSONで出力
共通結果形式:
[% IF notFirst;
",\n";
ELSE;
notFirst = 1;
END;
obj = {};
obj.query = query;
obj.answer = p1.answer;
obj.related = [];
FOREACH item IN p1.related;
obj.related.push(item.text);
END;
obj.json %]
開始テキスト:
[
終了テキスト:
]
結果の例:
[{"related":["なぜビットコインは最初の暗号資産と見なされ、伝統的な通貨とどう違うのか","ビットコインの基盤となるブロックチェーン技術はどのように機能するのか","ビットコインシステムで取引を保護する暗号化手法は何か","2100万枚という発行上限がビットコインをどのようにユニークな資産にしているのか","ビットコインを使用する際の分散化と仲介者の不在にはどのような利点があるのか"],"answer":"**ビットコイン** (Bitcoin, BTC) — (Bitcoin, BTC)は、最初の、そして最も有名な暗号資産であり、ブロックチェーン技術に基づいた分散型デジタル決済システムです。このシステムでは、すべての取引が公開台帳(ブロックチェーン)に記録され、暗号化手法によって保護されており、ネットワークの参加者なら誰でも確認できます[1][3][4].\n...","query":"ビットコインとは何ですか?"},{"related":["正しくググるための主なルールとヒントは何か","検索時に質問文や複雑な文章を避けることがなぜ重要なのか","Googleでより効果的に検索するために英語をどのように活用するか","検索を拡張または絞り込むのに役立つ演算子や記号は何か","情報の検索において引用符とチルダの使用はどう違うのか"],"answer":"## 正しくググる方法:主なヒント\n\n**クエリは短く、要点を絞って作成する**\n- 2〜6個の–6 キーワードを使用し、長い質問や複雑な文章は避けます。例えば、\"自分のWindowsコンピュータでインターネットが繋がらない場合はどうすればいいですか?\"の代わりに、\"インターネット 繋がらない windows 解決策\"を使用します[1].\n\n**正確なフレーズを検索する**\n...","query":"正しくググる方法?"}]
利用可能な設定
| パラメータ名 | デフォルト値 | 説明 |
|---|---|---|
| Sources | Web | 情報ソースのタイプ(複数選択可) |
| Use sessions | ☑ | 良好なセッションを保存し、エラーを減らしてさらに高速にスクレイピングできるようにします |
| Bypass CloudFlare | ☑ | CloudFlare保護の自動回避 |
| Bypass CloudFlare Browser Max Pages | 10 | CF回避時の最大ページ数 |
| Bypass CloudFlare Browser Headless | ☑ | このオプションが有効な場合、CF回避中にブラウザは表示されません |