メインコンテンツへスキップ

なぜ更新が必要なのか、そしてなぜ有料なのか?

A-Parserは常に進化しています。新しいバージョンのリリースに伴い、改善や修正が行われます。この記事では、アップデートとは何か、ライセンスとどう違うのか、どのような役割を果たし、なぜ費用が発生するのかについて解説します。

ライセンス ≠ アップデート

A-Parserを購入すると、その使用に関する無期限ライセンスと、購入したライセンスに応じて3〜6ヶ月間無料アップデートが提供されます。無料アップデート期間の終了後は、最後に利用可能だった安定版に更新し、その時点で利用可能なバージョンの範囲内で、引き続きスクレイパーを最大限に活用することができます。

サブスクリプションを更新するには、3ヶ月、$149の1年間、および$399の永久という3つのアップデートパッケージのいずれかを購入できます。

常にアップデート費用を支払う必要はありません。 アップデートのサブスクリプションがなかった期間分を遡って支払う必要はありません。

なぜアップデートは有料なのですか?

🐞 修正

ウェブサイトやさまざまなリソースは非常に速いスピードで進化しています。対象サイト側のどんなに些細な変更であっても、スクレイピングに影響を与える可能性があります。これは、もともとスクレイパーが特定の構造に合わせて設計されているためで、レイアウト、保護、またはその他の内部メカニズムの変更により、結果データが不正確になったり、データが完全に取得できなくなったり、その他のエラーが発生したりするためです。スクレイピング自体がサイトのサーバーに負荷をかけ、リクエストが増加するため、利益を失うサービス側は状況を打開するために新しい保護手法を導入したり、既存のものを進化させたりします。

このような変更があるたびに、修正を行う必要があります。それぞれの修正の裏には、問題の分析、解決策の模索、そして実装があります。

すべての変更はフォーラムで確認できます

🧰 毎日、すべての内蔵スクレイパーは内部テストシステムを通過します。 テストリクエストが成功すると、取得された結果の値がチェックされます。テストの失敗は、スクレイパーに存在するエラーを知らせる信号となります。テストのおかげで、私たちは不具合に迅速に対応し、すぐに修正作業を開始することができます。

最も複雑で需要が高く、そのため優先順位が高いのは、検索エンジンYandexとGoogleのスクレイパーです。それぞれが特定のタスクを解決する多くのパーツで構成されています。その中には、リクエストの準備、ヘッダーの形成、ページのソースコードの取得、結果のさまざまなフォーマット、キャプチャへの対応などが含まれます。これらすべてを動作可能な状態に維持する必要があります。スクレイパーには、検索結果、広告、関連キーワード、その他の値など、ページからの必要なすべてのデータを含む変数が用意されています。これらは、ページ上に特定のドキュメント構造(要素の順序、タイプ、クラス、その他のあらゆる特徴)があることを前提とした正規表現を使用して抽出されます。この構造に決定的な変更があった場合、以前のバージョンに適合していた正規表現は必要な断片を取得できなくなり、スクレイパーは改修に回されます。

✨ 改善

内蔵スクレイパーの動作維持に加えて、各リリースでは新機能が追加され、パフォーマンスと取得できるデータの両方に影響を与えるさまざまな改善が行われます。ビルドには新しいスクレイパーが含まれ、JavaScript APIには新しいメソッドが実装されます。

すべての変更内容はこちらで確認できます。

タイムリーなアップデートが行われないと、内蔵スクレイパーの誤動作を招きます。原因はさまざまです。例えば、ページのレイアウトが変更された可能性があります。アップデートを受け取っていないスクレイパーは、新しいフォーマットに適応していない古い正規表現でデータを収集しようとします。その結果、リクエストの失敗が発生し、さまざまなエラーが表示され、結果が得られない状態になります。

Googleスクレイパーの例

ユーザーから次のような問題でサポートに連絡がありました:

貴社のプロキシを使用してGoogleの検索結果を収集しています。リクエストの試行回数を300回に設定していますが、すべてのリクエストが失敗します。昨日までは正常に動作していました。

一見するとプロキシの問題のように見えますが、最新バージョンで同じ設定とクエリを使用してテストすると、正常に動作します。つまり、問題は別のところにあります。対話の中で、ユーザーが古いバージョンのA-Parserを使用していることが判明しました。これがGoogleスクレイパーが正しく動作しない本当の原因です。

Yandexスクレイパーの例

Yandexでキャプチャページのレイアウトが変更され、キャプチャが解決できなくなりました。フォーラムのタスクセクションに該当するスレッドが作成されました。

SE::Yandexにおける問題の例

翌朝、修正版がリリースされました。タスクは完了し、Next releaseセクションに移動されました。そこには、次の安定版に含まれるすべての修正と改善のトピックがあります。

したがって、最新のアップデートを適用していないA-Parserでは、Yandexのキャプチャは解決できないままとなります。

結論

A-Parserを購入すると、プログラムの無期限な使用ライセンスと、一定期間の無料アップデートパッケージが提供されます。必要に応じて、サブスクリプション期間の終了後に、提案されているアップデートパッケージのいずれかを購入して更新することができます。

ウェブサイトは不安定であり、スクレイパーは常に調整と改善を必要とします。それらを動作可能な状態に維持することが私たちの仕事です。実用的な修正を可能な限り迅速にリリースするために、私たちは多大な努力を払うことを優先事項としています。アップデートのコストは、その背後にある労働を裏付けるものです。各リリースは単なる修正と改善のリストではなく、A-Parserチームによる数ヶ月にわたる集中的な作業の成果です。