跳转到主要内容

为什么需要更新以及为什么它们是付费的?

A-Parser 持续发展。随着新版本的发布,我们会不断进行改进和修复。在本文中,我们将探讨什么是更新,它们与许可证有何区别,更新扮演什么角色,以及为什么需要付费。

许可证 ≠ 更新

购买 A-Parser 时,您将获得其使用的永久许可证,以及根据所购许可证类型提供的 3-6 个月免费更新。在免费更新期结束后,您可以更新到最后一个可用的稳定版本,并继续全额使用爬虫工具——前提是该版本在订阅结束时仍能正常工作。

如需续订,您可以购买三种更新包之一:3 个月、一年和终身,价格分别为 $49、$149 和 $399。

您无需持续为更新付费。 没有订阅更新的期间,无需补缴费用。

为什么更新是收费的?

🐞 修复

网站和各类资源的发展速度非常快。目标网站任何细微的变化都可能影响数据抓取。这是因为爬虫工具最初是针对特定的结构设计的,而页面布局、防护机制或其他内部机制的改变会导致结果数据不准确、完全缺失或其他错误。数据抓取本身会对网站服务器产生负面影响:请求增加,负载也随之增加。损失利润的服务商被迫寻找对策,因此出现了新的防护类型,旧的防护也在不断演进。

每一次这样的变化都需要进行修正。每一次修正的背后都是对问题的分析、解决方案的寻找以及实施。

可以在论坛上查看所有更改

🧰 每天,每个内置爬虫工具都会通过内部测试系统。 如果测试请求成功完成,则会检查结果值。测试失败则预示着爬虫工具存在错误。得益于这些测试,我们能对故障做出快速反应,并立即开始修复工作。

对我们来说,最复杂、需求量最大且优先级最高的是 Google 和 Yandex 搜索引擎爬虫工具。每一个都由解决特定任务的许多部分组成。其中包括请求准备、请求头生成、获取页面源代码、各种结果格式化、验证码处理等。所有这些都需要维持在工作状态。爬虫工具提供了包含页面所有必要数据的变量:搜索结果、广告、相关关键词和其他值。这些数据是通过正则表达式提取的,这要求页面具有特定的文档结构(元素顺序、类型、类和其他各种特征)。当这种结构发生关键性变化时,适用于旧版本的正则表达式将无法提取所需片段,爬虫工具则需要进入维护阶段。

✨ 改进

除了维持内置爬虫工具的可用性外,每个版本都会添加新功能并进行各种改进,这不仅影响性能,还影响获取的数据。版本中会包含新爬虫工具,并在 JavaScript API 中实现新方法

您可以在这里查看所有更改。

缺乏及时的更新会导致内置爬虫工具运行不正常。原因可能多种多样。例如,页面布局可能发生了变化。未获得更新的爬虫工具尝试使用未适配新格式的旧正则表达式采集数据。结果就是出现失败请求、弹出各种错误没有结果

以 Google 爬虫工具为例

一位用户向支持部门反馈了以下问题:

我使用你们的代理采集 Google 搜索结果。设置了 300 次请求尝试。所有请求都失败了。昨天还运行得好好的。

乍一看似乎是代理的问题,但在最新版本上使用相同的设置和请求进行的测试却成功了。这意味着问题出在别处。在沟通中发现,用户使用的是过时版本的 A-Parser。这正是 Google 爬虫工具运行不正常的真正原因。

以 Yandex 爬虫工具为例

Yandex 更改了带有验证码的页面布局,导致验证码无法识别。在论坛的“任务”板块创建了相应主题

SE::Yandex 中的问题示例

次日早晨发布了修复补丁。任务已关闭并移至 Next release 板块。那里记录了所有将包含在下一个稳定版本中的修复和改进主题。

相应地,在未获得最新更新的 A-Parser 中,Yandex 的验证码将无法再被识别。

结论

购买 A-Parser 时,您将获得程序的永久使用许可证以及特定期限的免费更新包。如有需要,在订阅到期后,您可以通过购买建议的更新包之一来续订

网站是不稳定的——爬虫工具需要不断的调整和改进。维持它们的可用状态是我们的工作。这是我们投入巨大精力的优先任务,以便尽可能快地发布修复补丁。更新的费用体现了背后的劳动价值。每个版本不仅仅是一个修复和改进列表,更是 A-Parser 团队数月专注工作的结晶。