よくある質問
1. デモ、支払い、購入に関する質問
1.1. Demo版で結果をダウンロードするには?
Demo版では、実行結果のダウンロードはできません。ご要望に応じて提供しております。ご希望のクエリと興味のあるスクレイパーをお知らせいただければ、結果をお送りします(デモの範囲内では件数に制限があります)。
1.2. A-Parser購入後に追加料金は発生しますか?
いいえ。詳細はこちら:ライセンスとアドオン、購入ページ。
1.3. プロキシの支払いはどこで、どのように行えますか?
ライセンス購入時にボーナスプロキシが提供されます。
Lite - 2週間 20スレッド、ProおよびEnterprise - 1ヶ月 50スレッド。
スレッドの追加購入や更新は、会員エリアの「ショップ」タブ内「プロキシ」サブセクションで行えます。
1.4. 有料でタスクの設定をしてもらえますか?
A-Parserの動作に関する技術サポートは無料で提供しています。有料でのタスク作成支援については、こちらにお問い合わせください:タスク作成の有料サービス、設定支援、A-Parserの使用トレーニング。
1.5. Privat24銀行やKIWIで支払いは可能ですか?
対応している決済システムの一覧はこちらに記載されています:A-Parserを購入する。
1.6. Yandexのインデックス数のみをスクレイピングしたい場合、どのエディションを購入すべきですか?
その目的であればLite版で十分ですが、Pro版の方がより実用的で柔軟な運用が可能です。
1.7. ライセンス情報はどこで確認できますか?
1.8. 購入したプロキシを複数のIPで使用できますか?
いいえ。
2. インストール、起動、更新に関する質問
2.1. Downloadボタンを押してもアーカイブがダウンロードされません。どうすればいいですか?
2.2. Enterprise版を購入しましたが、PRO版がインストールされます。どうすればいいですか?
以前のバージョンを削除してください。会員エリアでIPアドレスが正しく登録されているか確認してください。ダウンロード前にUpdateボタンを押してください。最新バージョンをダウンロードしてください。詳細はインストール手順をご覧ください。
2.3. インストールしましたが起動しません。どうすればいいですか?
2.4. 動的IPアドレスの場合はどうすればいいですか?
問題ありません。A-Parserは動的IPアドレスに対応しています。IPが変わるたびに会員エリアで登録し直す必要があります。この手間を省くために、固定IPアドレスの使用を推奨します。
2.5. インストールに最適なサーバーやPCのスペックは?
すべてのシステム要件はこちらで確認できます:システム要件。
2.6. タスクを開始したらスクレイパーがクラッシュし、再起動できなくなりました。どうすればいいですか?
サーバーを停止させ、プロセスがメモリに残っていないか確認してから、再度起動を試みてください。また、すべてのタスクを停止した状態でA-Parserを起動することも可能です。その場合は、引数 -stoptasks を付けて起動してください。引数付き起動の詳細。
2.7. 127.0.0.1:9091 を開く際に入力するパスワードは何ですか?
初回起動時はパスワードは空です。2回目以降は、ご自身で設定したパスワードを入力してください。パスワードを忘れた場合は、パスワードのリセットを行ってください。
2.8. 会員エリアでIPを入力しても、Your current IP フィールドが変わりません。なぜですか?
Your current IP フィールドには現在有効なIPが表示されており、これは変更されません。この値を IP 1 フィールドに入力する必要があります。
2.9. 同時に2つのコピーを起動できますか?
2.10. スクレイパーにハードウェア紐付けはありますか?
いいえ。ライセンス管理にはIPアドレスが使用されます。
2.11. 更新について - .exeのみ更新すればいいですか? config/config.db や files/Rank-CMS/apps.json は何のためのファイルですか?
特に指定がない限り、.exe のみを更新してください。最初のファイルは A-Parser の設定保存用で、2番目のファイルは CMS 判定およびスクレイパー
Rank::CMS 自体の動作のためのデータベースです。
2.12. Win Server 2008 Web Edition を使用していますが、スクレイパーが起動しません...
そのOSバージョンではA-Parserは動作しません。唯一の解決策はOSを変更することです。
2.13. 4コアプロセッサを使用していますが、A-Parserが1コアしか使用しません。なぜですか?
A-Parserは通常2〜4コアを使用しますが、追加のコアはフィルタリング、結果ビルダー、Parse custom resultを使用する場合にのみ利用されます。
2.14. セグメンテーションエラー(segmentation failed, segmentation error)が出るようになりました。どうすればいいですか?
IPアドレスが変更された可能性があります。会員エリアで確認してください。
2.15. Linuxを使用しています。A-Parserは起動しましたが、ブラウザで開きません。解決方法は?
ファイアウォールを確認してください。アクセスがブロックされている可能性があります。
2.16. Windows 7を使用しています。A-Parserは起動しましたが、ブラウザで開かず、タスクマネージャーにNode.jsのプロセスもありません。解決方法は?
Windows Updateを確認し、最新の更新プログラムをインストールしてください。具体的には Windows 7 SP1 の更新 が必要です。
2.17. A-Parserが起動せず、aparser.logに FATAL: padding_depad failed: Invalid argument provided. at ./Crypt/Mode/CBC.pm line 20. というエラーが出ます。
ディスクエラー(PCの強制終了など)により、特定のタスク(/config/tasks/ フォルダ内)に問題が発生している可能性があります。詳細は、A-Parserを -morelogs フラグ付きで起動することで確認できます。
解決策: A-Parserを引数 -stoptasks 付きで起動してください。解決しない場合は、/config/tasks/ 内をすべて削除してください。それでも問題が解消されない場合は、新しいディレクトリに再インストールし、古い設定ファイル(破損していない場合)をコピーしてください。
3. A-Parserの設定およびその他の設定に関する質問
3.1. プロキシチェッカーの設定方法は?
詳細な手順はこちらにあります:プロキシ設定。
3.2. 有効なプロキシが表示されないのはなぜですか?
インターネット接続とプロキシチェッカーの設定を確認してください。設定が正しい場合、現在のプロキシリストに動作するサーバーが含まれていないことを意味します。解決策として、別のプロキシを使用するか、後でもう一度試してください。 当社のプロキシを使用している場合は、会員エリアの Proxies セクションでIPアドレスを確認してください。また、プロバイダーが他のDNSへのアクセスをブロックしている可能性もあります。こちらのステップを試してください:http://a-parser.com/threads/1240/#post-3582
3.3. アンチゲートの接続方法は?
3.4. スクレイパーの設定を変更しましたが、適用されません。なぜですか?
デフォルト(default)プリセットは変更できません。変更を加えた場合は、Save as New Preset (Save as new preset) をクリックして保存し、そのプリセットをタスクで使用してください。
3.5. 実行中のタスクの設定を変更できますか?
一部可能です。実行中のタスクを一時停止し、ドロップダウンメニューから Edit を選択してください。
3.6. プリセットのインポート方法は?
Task Editor のタスク選択フィールドの隣にあるボタンをクリックします。詳細はこちら。
3.7. プロキシを使用しないように設定するには?
対象のスクレイパーの設定で Use proxy のチェックを外してください。
3.8. Override option(上書きオプション)ボタンがありません!
このオプションは Task Editor で直接追加できます。スクレイパーオプション。
3.9. 同じ結果ファイルに上書き保存するには?
タスク作成時に Overwrite file オプションを有効にしてください。
3.10. スクレイパーのパスワードはどこで変更できますか?
3.11. 600万個のキーワードでスクレイピングし、ドメインをすべて一意にしました。次に新しい600万個のキーワードを設定した際、前回の結果と重複しない一意のドメインのみを保存するには?
最初のタスク作成時に Keep unique (Save unique check state) オプションを使用し、2番目のタスクでその保存されたデータベースを指定してください。タスクエディタの追加オプションの詳細。
3.12. Googleの1000件制限を回避するには?
Parse all results オプションを使用してください。
3.13. Linuxの1024スレッド制限を回避するには?
3.14. Windowsのスレッド数制限は?
最大10,000スレッドまでです。
3.15. クエリを重複排除するには?
Unique queries (Task Editor) の Queries ブロックにある Unique queries オプションを使用してください。

3.16. プロキシのチェックを無効にするには?
Settings - Proxy Checker Settings で対象のプロキシチェッカーを選択し、No check proxies (Do not check proxies) にチェックを入れます。保存して、そのプリセットを選択してください。
3.17. Proxy ban time とは何ですか? 0に設定できますか?
プロキシがバンされる時間(秒)です。はい、0に設定可能です。
3.18. スクレイパー
SE::Google::Position における Exact Domain と Top Level Domain の違いは何ですか?
Exact Domain は厳密な一致です。例えば、検索結果が www.domain.com で、検索対象が domain.com の場合、一致とはみなされません。Top Level Domain はトップドメイン全体を照合するため、この場合は一致とみなされます。
3.19. テストスクレイピングは動作しますが、通常実行だと Some error が出ます。
DNSの問題である可能性が高いです。こちらの DNS設定手順 を試してください。
3.20. 結果のフォーマットはどこで設定しますか?
3.21. Google の設定にはオランダ語がありますが、
SE::Google にはありません。なぜですか?
オランダ語は Dutch としてリストに存在します。詳細は オランダ語追加に関する改善 をご覧ください。
4. スクレイピングおよびスクレイピング中のエラーに関する質問
4.1. スレッドとは何ですか?
現代のプロセッサはタスクを複数のスレッドで実行でき、処理速度を大幅に向上させます。例えるなら、一度に一定人数を運ぶ普通のバスがシングルスレッド処理、同じ時間で2倍の人数を運ぶ2階建てバスがマルチスレッド処理です。A-Parserは同時に最大10,000スレッドまで処理可能です。
4.2. タスクが開始されず Some Error と表示されます。なぜですか?
会員エリアでIPアドレスを確認してください。
4.3. すべてのクエリが失敗(failed)になります。どうすればいいですか?
タスクの設定が間違っているか、クエリのフォーマットが正しくない可能性があります。また、有効なプロキシがあるか確認してください。Request retries オプションの値を増やすことも検討してください(詳細はこちら:失敗したクエリ)。
4.4.
SE::Yandex::Wordstat で 1,000,000 キーワードをスクレイピングするには、いくつかのアカウントを登録する必要がありますか?
アカウントが何回のリクエストで無効になるか不明なため、正確な必要数は言えません。しかし、スクレイパー
SE::Yandex::Register を使用して新しいアカウントを登録したり、既存のアカウントを files/SE-Yandex/accounts.txt ファイルに追加したりすることがいつでも可能です。
4.5. タスクが開始されず Error: Lock 100 threads failed(20 of limit 100 used) と表示されます。どうすればいいですか?
スクレイパーの設定で利用可能な最大スレッド数を増やすか、タスクの設定でスレッド数を減らす必要があります。詳細は 設定 をご覧ください。
4.6. 2つのタスクを同時に実行できますか?
はい、A-Parserは複数のタスクの同時実行をサポートしています。同時実行タスク数は 設定 - 一般設定: Max active tasks で調整できます。
4.7. 結果ファイルはどこにありますか?
Tasks Queue (Task Queue) タブで、各タスクの終了後に結果をダウンロードできます。物理的には results フォルダに保存されています。
4.8. スクレイピングが完了する前に結果ファイルをダウンロードできますか?
いいえ、スクレイピングが完了するまで結果をダウンロードすることはできません。ただし、タスクを停止または一時停止した状態で、aparser/results フォルダからファイルをコピーすることは可能です。
4.9. 1つのクエリで1,000,000件のリンクをスクレイピングできますか?
はい、Parse all results オプションを使用することで可能です。
4.10. プロキシなしで
Rank::CMS や
Net::Whois をスクレイピングできますか?
Rank::CMS は可能です(むしろ推奨されます)。
Net::Whois は推奨されません。4.11. Googleからリンクをスクレイピングするには?
SE::Google を使用する必要があります。4.12. スクレイパーはリンクを辿ることができますか?
はい、これはスクレイパー
HTML::LinkExtractor がオプションレベルまでパースする / Parse to level を使用することで行えます。
4.13. Googleのスクレイピングが非常に遅いです。どうすればいいですか?
まずタスクログを確認してください。すべてのリクエストが失敗している可能性があります。その場合は、失敗の原因を特定して修正する必要があります。
SE::Google でのスクレイピング中、ログに失敗が頻発するのは Google がキャプチャを表示しているためで、これは正常な動作です。スクレイパーが試行を繰り返さないように、Anti-Captcha を連携してキャプチャを回避できます。
また、スクレイピング速度に影響を与える要因とその影響について説明した記事もあります:スクレイパーの速度と動作原理。
4.14. 日本語のテキストのみを含むリンクをスクレイピングできますか?
はい、スクレイパーの設定で必要な言語を指定し、日本語のキーワードを使用することで可能です。
4.15. .de や .ru などの特定のドメインゾーンのみをスクレイピングできますか?
はい。フィルタを使用することで可能です。
4.16. 結果を1行ずつファイルに保存するには?
結果のフォーマット時に \n を使用してください。例:
$serp.format('$link\n')
4.17. Googleの検索結果TOP10をスクレイピングするには?
プリセットはこちらです:
eyJwcmVzZXQiOiJUT1AxMCIsInZhbHVlIjp7InByZXNldCI6IlRPUDEwIiwicGFy
c2VycyI6W1siU0U6Okdvb2dsZSIsImRlZmF1bHQiLHsidHlwZSI6Im92ZXJyaWRl
IiwiaWQiOiJwYWdlY291bnQiLCJ2YWx1ZSI6MX0seyJ0eXBlIjoib3ZlcnJpZGUi
LCJpZCI6ImxpbmtzcGVycGFnZSIsInZhbHVlIjoxMH0seyJ0eXBlIjoib3ZlcnJp
ZGUiLCJpZCI6InVzZXByb3h5IiwidmFsdWUiOmZhbHNlfV1dLCJyZXN1bHRzRm9y
bWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVzdWx0
c0ZpbGVOYW1lIjoiJGRhdGVmaWxlLmZvcm1hdCgpLnR4dCIsImFkZGl0aW9uYWxG
b3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6Im5vIiwicXVlcnlGb3JtYXQiOlsi
JHF1ZXJ5Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNlLCJzYXZlRmFpbGVkUXVlcmll
cyI6ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFsc2Us
InF1ZXJ5QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpmYWxzZX0sInJlc3VsdHNPcHRp
b25zIjp7Im92ZXJ3cml0ZSI6ZmFsc2V9LCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1
ZSI6Ik5vIiwibW9yZU9wdGlvbnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIs
InJlc3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1
aWxkZXJzIjpbXSwiY29uZmlnT3ZlcnJpZGVzIjpbXX19
4.18. タスクを追加してタスクキューを確認しましたが、表示されません。なぜですか?
タスク作成時にエラーがあったか、あるいは既に完了して Completed に移動している可能性があります。
4.19. ファイルが utf-8 ではないと表示されますが、変更しておらず utf-8 のはずです。どうすればいいですか?
もう一度確認してください。また、Notepad++ などを使用して、エンコーディングを明示的に変更してみてください。
4.20. タスクで改行を設定したのに、結果ファイルがすべて1行になっています。なぜですか?
A-Parserの追加設定で、改行コードを CRLF (Windows) に設定する必要があります。
既にこのオプションなしでスクレイピングしてしまった場合は、Notepad++ などの高度なテキストエディタを使用して閲覧してください。
4.21. Yandexで1,000件のクエリ頻度を確認するのにどのくらい時間がかかりますか?
この数値はタスクのパラメータ、サーバーのスペック、プロキシの品質などに大きく依存するため、一概に答えることは不可能です。
4.22. 結果を「クエリ: リンク」の形式にするには?
結果のフォーマット:
$p1.serp.format('$query: $link\n')
結果は以下のようになります:
query: link 1
query: link 2
query: link 3
4.23. 失敗したクエリを再実行するには?また、それらはどこに保存されていますか?
失敗したクエリを保存するには、Queries (Task Editor) の Queries ブロックで対応するオプションを選択してください。失敗したクエリは queries\failed に保存されます。新しいタスクを作成し、クエリファイルとしてその失敗したクエリファイルを指定してください。
4.24. テキストのスクレイピング時にHTMLタグを除去するには?
結果ビルダーの Remove HTML tags オプションを使用してください。
4.25. ドメインのみをスクレイピングするには?
結果ビルダーの Extract Domain オプションを使用してください。
4.26. スクレイパーで使用できるクエリファイルの最大サイズは?
クエリファイルおよび結果ファイルのサイズに制限はなく、テラバイト単位に達することも可能です。
4.27. クエリフィールドにテキストを入力すると Queries length limited to 8192 characters と表示されるのはなぜですか?
これは、クエリ入力フィールドの長さが8192文字に制限されているためです。より長いクエリを使用する場合は、クエリファイルを使用してください。
4.28. 「待機中のスレッド - 3」とはどういう意味ですか?
プロキシが不足していることを意味します。スレッド数を減らすか、プロキシの数を増やしてください。
4.29. テストスクレイピングで 596 SOCKS proxy error: Hello read error(Connection reset by peer) (0 KB) と出てスクレイピングできません。なぜですか?
これはプロキシが動作していないことを示しています。
4.30. Googleスクレイパーにおける「結果の言語」と「検索対象国」の違いは何ですか?
違いは以下の通りです:検索対象国は、結果を特定の国に関連付けるものです。例えば、特定の国を指定して windows 購入 を検索すると、その国で販売されているサイトが優先されます。結果の言語は、結果がどの言語で表示されるべきかを指定するものです。
4.31. 特定のサイトがスクレイピングできません。何が原因でしょうか?
サーバー側で古いユーザーエージェントがブロックされていることが原因であることが多いです。 新しいユーザーエージェントを使用するか、User agent パラメータに以下のコードを入力することで解決します:
[% tools.ua.random() %]
4.32. スクレイパーがフリーズしたり落ちたりします。ログに syswrite: No space left on device という行があります。
A-Parserを実行しているハードディスクの空き容量が不足しています。空き容量を確保してください。
4.33. 結果に none が出たり、明らかに間違った結果が出るようになりました。
4.34. Failed fetch news というウィンドウが頻繁に表示されます。
4.35. 検索結果の最初のn件を出力するには?
4.36. リダイレクトチェーンを追跡するには?
4.37. ドナーサイトのリンクがインデックスされているか確認するには?
そのような目的には、専用のスクレイパー
Check::BackLink が存在します。
議論の詳細。
4.38. Linuxでタスク実行中にスクレイパーが落ちます。ログに EV: error in callback (ignoring): syswrite() on closed filehandle at AnyEvent/Handle.pm line... という記録があります。
おそらく、ドキュメント:スレッド数を増やすための Linux チューニングに記載されているように、スレッド数を調整する必要があります。
4.39. APIで使用可能なすべてのパラメータはどこで確認できますか?
また、JSON 形式でタスクの完全な設定を生成することも可能です。そのためには、タスクコードを取得し、base64 からデコードする必要があります。
4.40.
Net::HTTP を使って画像をダウンロードしていますが、なぜかすべて壊れています。どうすればいいですか?
1) Max body size パラメータを確認してください。値を増やす必要があるかもしれません。 2) A-Parser の設定で改行形式を確認してください:追加設定 - 改行。
画像が壊れないようにするには、UNIX 形式を使用する必要があります。
4.41. WHOISから admin contact を取得するには?
このようなタスクは、Parse custom result 機能と正規表現を使用して簡単に解決できます。詳細はディスカッションを参照してください。
4.42. 電話番号スクレイピング用の正規表現
4.43. モバイル版のないサイトの特定
4.44. NSサーバー名を知るには?
4.45. Yandexキャッシュへのリンクをスクレイピングするには?
4.46. サイトの全ページのリンクをスクレイピングするには?
4.47. ページから title をスクレイピングするには?
4.48. 指定したドメインゾーンの全サイトをスクレイピングするには?
4.49. パラメータ付きの全URLを収集するには?
4.50. 複数の条件で結果をフィルタリングし、レポートで分類するには?
4.51. フィルタ構造を簡素化するには?
4.52. 結果に応じてファイル別にソートするには?
4.53. ファイルX個ごとに新しい結果ディレクトリを作成する
4.54. WordStat利用の第一歩
4.55. 1000文字以上のテキストブロックの収集
4.56. ページから特定の量のテキストを出力する
これも Template Toolkit を使用して解決できます。詳細はディスカッションを参照してください。
4.57. Googleでの競合とタイトルへのキーワード出現のチェック
4.58. アンカーとスニペットへのクエリ出現回数によるフィルタリング
4.59. 記事の内容を1行で取得するには?
4.60. 2つの日付文字列を比較するには?
4.61. スニペット内の強調表示された単語をスクレイピングするには?
4.62. 複数のスクレイパーを使用したタスクの例
4.63. 結果の行をシャッフルし、ランダムな件数の結果を出力するには?
4.64. MD5を使用して結果に署名するには?
4.65. Unixタイムスタンプを日付文字列に変換するには?
4.66. Parse to level、制限付きでスクレイピングするには?
4.67. Linuxでタスク開始時にスクレイパーが落ちます。ログに Can't call method "if_list" on an undefined value at IO/Interface/Simple.pm... という行があります。
コンソールで次のコマンドを実行する必要があります:
apt-get --reinstall --purge install netbase
4.68. エラー Cannot init Parser: Error: Failed to launch the browser process! [0429/082706.472999:ERROR:zygote_host_impl_linux.cc(90)] Running as root without --no-sandbox is not supported...
A-Parser を root 以外で実行する必要があります。具体的には、root ユーザーから root 権限のない新しいユーザーを作成し(既存のものがあればそれを使用)、そのユーザーに A-Parser ディレクトリへのアクセス権限を与えた後、新しいユーザーでログインして実行してください。
root ユーザーの下でユーザーを作成します。こちらのガイドを参考にしてください。
作成したユーザーに A-Parser ディレクトリの操作を許可するには、権限を与える必要があります。そのためには、root ユーザーでログインし、次のコマンドで権限を付与します:
chown -R user:user aparser
4.69. エラー Cannot init Parser: Error: Failed to launch the browser process! [0429/102002.619437:FATAL:zygote_host_impl_linux.cc(117)] No usable sandbox! Update your kernel or see...
root ユーザーで次のコマンドを実行します:
sysctl -w kernel.unprivileged_userns_clone=1
A-Parser の再起動は不要です。
CentOS 7 の場合の解決策はこのスレッドにあります。
root ユーザーで次のコマンドを実行します:
echo "user.max_user_namespaces=15000" >> /etc/sysctl.conf
次に、次のコマンドで sysctl を再起動します:
sysctl -p
4.70. エラー JavaScript execution error(): Error: Failed to launch the browser process! /aparser/dist/nodejs/node_modules/puppeteer/.local-chromium/linux-884014/chrome-linux/chrome: error while loading shared libraries: libatk-1.0.so.0: cannot open shared object file: No such file or directory...
このエラーは、OS に Chrome の動作に必要なライブラリが不足しているために発生します。
Chrome の動作に必要なライブラリのリストは、Chrome headless doesn't launch on UNIX で確認できます。
4.71. キャプチャが解決されません。ログを見ると、Xrummerから回答の代わりに疑問符が返されています。
地域設定でロシア語に変更する必要があります。
「詳細設定」タブのみを変更する必要があります。これはキャプチャの解決には影響しませんが、両方を変更すると Xumer 自体で文字化けの問題が発生します。
