HTML::TextExtractor::LangDetect - ページの言語検出
スクレイパーの概要

HTML::TextExtractor::LangDetect はWebサイトの言語、および特定精度をパーセントで特定します。マルチページスクレイピングと、指定した深さまでのサイト内ページへの遷移をサポートしており、サイトのすべてのページを巡回して内部および外部リンクを収集できます。保護を回避するための組み込みツール CloudFlare を備えており、また、スクリプトでデータが読み込まれるページからメールをスクレイピングするためのエンジンとして Chrome を選択することも可能です。最大で毎分 2000 リクエストの速度に達することができ、これは 1時間あたり 120 000 リンクに相当します。収集データ
- Webサイトの言語を特定
- 特定の精度(%)
機能
- マルチページスクレイピング(ページ遷移)
- gzip/deflate/brotli 圧縮をサポート
- Webサイトのエンコーディングを特定し UTF-8 に変換
- CloudFlareの保護を回避
- エンジンの選択(HTTPまたはChrome)
- 外部サービスを使用せずにWebサイトの言語を特定
- 特定の精度(%)
ユースケース
- 特定のコンテンツ言語を持つドメインの選定
クエリ
クエリとして、Webサイトのリストを指定する必要があります。例:
http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/
結果出力例
A-Parserは、内蔵のテンプレートエンジン Template Toolkit により柔軟な結果フォーマットをサポートしており、任意の形式や、CSVやJSONなどの構造化された形式で結果を出力できます。
デフォルト出力
結果フォーマット:
$query: $lang\n
結果の例:
http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH
設定
| パラメータ名 | デフォルト値 | 説明 |
|---|---|---|
| Good status | All | サーバーからのどのレスポンスを成功と見なすかを選択します。スクレイピング中にサーバーから別のレスポンスがあった場合、別のプロキシでリクエストが再試行されます。 |
| Good code RegEx | レスポンスコードをチェックするための正規表現を指定できます。 | |
| Method | GET | リクエストメソッド。 |
| POST body | POSTメソッド使用時にサーバーに送信するコンテンツ。変数 $query(リクエストURL)、$query.orig(元のクエリ)、$pagenum(Use Pages オプション使用時のページ番号)をサポートしています。 | |
| Cookies | リクエストに使用するCookieを指定できます。 | |
| User agent | Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) | ページリクエスト時の User-Agent ヘッダー。 |
| Additional headers | テンプレートエンジンの機能とクエリコンストラクタの変数を使用して、任意のリクエストヘッダーを指定できます。 | |
| Read only headers | ☐ | ヘッダーのみを読み取ります。コンテンツを処理する必要がない場合、トラフィックを節約できます。 |
| Detect charset on content | ☐ | ページの内容に基づいてエンコーディングを認識します。 |
| Emulate browser headers | ☐ | ブラウザのヘッダーをエミュレートします。 |
| Max redirects count | 7 | スクレイパーが遷移するリダイレクトの最大数。 |
| Max cookies count | 16 | 保存するCookieの最大数。 |
| Bypass CloudFlare | ☑ | CloudFlareのチェックを自動的に回避します。 |
| Follow common redirects | ☑ | Max redirects count の制限を回避して、同一ドメイン内での http <-> https および www.domain <-> domain のリダイレクトを許可します。 |
| Engine | HTTP (Fast, JavaScript Disabled) | HTTPエンジン(高速、JavaScriptなし)または Chromeエンジン(低速、JavaScript有効)を選択できます。 |
| Chrome Headless | ☐ | このオプションが有効な場合、ブラウザは表示されません。 |
| Chrome DevTools | ☑ | Chromiumのデバッグツールを使用できます。 |
| Chrome Log Proxy connections | ☑ | このオプションが有効な場合、Chromeの接続に関する情報がログに出力されます。 |
| Chrome Wait Until | networkidle2 | ページがロードされたと見なすタイミングを定義します。値の詳細。 |
| Use HTTP/2 transport | ☐ | HTTP/1.1の代わりにHTTP/2を使用するかどうかを定義します。例えば、GoogleやMajesticはHTTP/1.1を使用すると即座にブロックします。 |
| Bypass CloudFlare with Chrome(Experimental) | ☐ | Chrome経由でのCF回避。 |
| Bypass CloudFlare with Chrome Max Pages | Chrome経由でCFを回避する際の最大ページ数。 |