メインコンテンツへスキップ

HTML::TextExtractor::LangDetect - ページの言語検出

スクレイパーの概要

スクレイパーの概要HTML::TextExtractor::LangDetectHTML::TextExtractor::LangDetect はWebサイトの言語、および特定精度をパーセントで特定します。マルチページスクレイピングと、指定した深さまでのサイト内ページへの遷移をサポートしており、サイトのすべてのページを巡回して内部および外部リンクを収集できます。保護を回避するための組み込みツール CloudFlare を備えており、また、スクリプトでデータが読み込まれるページからメールをスクレイピングするためのエンジンとして Chrome を選択することも可能です。最大で毎分 2000 リクエストの速度に達することができ、これは 1時間あたり 120 000 リンクに相当します。

収集データ

  • Webサイトの言語を特定
  • 特定の精度(%)

機能

  • マルチページスクレイピング(ページ遷移)
  • gzip/deflate/brotli 圧縮をサポート
  • Webサイトのエンコーディングを特定し UTF-8 に変換
  • CloudFlareの保護を回避
  • エンジンの選択(HTTPまたはChrome)
  • 外部サービスを使用せずにWebサイトの言語を特定
  • 特定の精度(%)

ユースケース

  • 特定のコンテンツ言語を持つドメインの選定

クエリ

クエリとして、Webサイトのリストを指定する必要があります。例:

http://a-parser.com/
http://yandex.ru/
http://google.com/
http://vk.com/
http://facebook.com/
http://youtube.com/

結果出力例

A-Parserは、内蔵のテンプレートエンジン Template Toolkit により柔軟な結果フォーマットをサポートしており、任意の形式や、CSVやJSONなどの構造化された形式で結果を出力できます。

デフォルト出力

結果フォーマット:

$query: $lang\n

結果の例:

http://vk.com/: RUSSIAN
http://a-parser.com/: RUSSIAN
http://yandex.ru/: RUSSIAN
http://youtube.com/: ENGLISH
http://google.com/: ENGLISH
http://facebook.com/: ENGLISH

設定

パラメータ名デフォルト値説明
Good statusAllサーバーからのどのレスポンスを成功と見なすかを選択します。スクレイピング中にサーバーから別のレスポンスがあった場合、別のプロキシでリクエストが再試行されます。
Good code RegExレスポンスコードをチェックするための正規表現を指定できます。
MethodGETリクエストメソッド。
POST bodyPOSTメソッド使用時にサーバーに送信するコンテンツ。変数 $query(リクエストURL)、$query.orig(元のクエリ)、$pagenumUse Pages オプション使用時のページ番号)をサポートしています。
Cookiesリクエストに使用するCookieを指定できます。
User agentMozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)ページリクエスト時の User-Agent ヘッダー。
Additional headersテンプレートエンジンの機能とクエリコンストラクタの変数を使用して、任意のリクエストヘッダーを指定できます。
Read only headersヘッダーのみを読み取ります。コンテンツを処理する必要がない場合、トラフィックを節約できます。
Detect charset on contentページの内容に基づいてエンコーディングを認識します。
Emulate browser headersブラウザのヘッダーをエミュレートします。
Max redirects count7スクレイパーが遷移するリダイレクトの最大数。
Max cookies count16保存するCookieの最大数。
Bypass CloudFlareCloudFlareのチェックを自動的に回避します。
Follow common redirectsMax redirects count の制限を回避して、同一ドメイン内での http <-> https および www.domain <-> domain のリダイレクトを許可します。
EngineHTTP (Fast, JavaScript Disabled)HTTPエンジン(高速、JavaScriptなし)または Chromeエンジン(低速、JavaScript有効)を選択できます。
Chrome Headlessこのオプションが有効な場合、ブラウザは表示されません。
Chrome DevToolsChromiumのデバッグツールを使用できます。
Chrome Log Proxy connectionsこのオプションが有効な場合、Chromeの接続に関する情報がログに出力されます。
Chrome Wait Untilnetworkidle2ページがロードされたと見なすタイミングを定義します。値の詳細。
Use HTTP/2 transportHTTP/1.1の代わりにHTTP/2を使用するかどうかを定義します。例えば、GoogleやMajesticはHTTP/1.1を使用すると即座にブロックします。
Bypass CloudFlare with Chrome(Experimental)Chrome経由でのCF回避。
Bypass CloudFlare with Chrome Max PagesChrome経由でCFを回避する際の最大ページ数。