Social::Instagram::Tag - Instagram 标签帖子爬虫工具

爬虫工具概览
Social::Instagram::Tag – 从 Instagram 按标签抓取帖子。自动采集所有数据:帖子类型、文本、发布日期、评论数、点赞数等。在采集评论文本的同时,还会采集作者的个人资料链接、评论点赞数以及创建时间。您可以利用自动查询扩展、从文件读取子查询、遍历字母数字组合以及列表,以获取尽可能多的结果。通过使用结果过滤,您可以立即清理结果,删除所有不需要的垃圾内容(使用排除词)。
A-Parser 的功能允许您保存 Social::Instagram::Tag 爬虫工具的数据抓取设置以便日后使用(预设),设置数据抓取计划等等。
得益于内置强大的模板引擎 Template Toolkit,结果保存可以采用您需要的任何形式和结构,这允许对结果应用额外的逻辑,并以各种格式输出数据,包括 JSON、SQL 和 CSV。
备注
该爬虫工具使用已授权账号的数据。 为了使爬虫工具正常工作,必须为 cookie 选项指定值。
爬虫工具应用案例
按标签收集所有帖子

- 覆盖 Count of pages with posts 选项,在列表中选择
100。 - 覆盖 Result format 选项,将值设为
$posts.format('$link\n')。 - 在查询中指定标签。
下载示例
eJx1U01v2zAM/S9CgK5AEKSHXXxLAwTokNVdk56SHAibNrTIoibJWQvD/72U7NhJ
P24i+fj4KJKN8OCO7smiQ+9EsmuEiW+RiBwLqJUXU2HAOrQhvBMbyiSoJHnQzkNp
oUqSLZQMGuCN8G8GmYBOaK3MkYMyZ9tAiRnVOlCeQNWMuZvP2+8TCrIVeNbTyehz
xMSQ827WRX/cTJTUx/1e39yK9nCYig7vVjEc4XezvqkhuIETbimUkApH94qtR6hi
kRw8hui5zu3MvwYGyHPpJWlQXYXwLWPVFy3/RZGaGMtPK9GtLFXs8hgJgvPtrG4n
JtEWTFHH3D9djkgKUA6nwrHUFbCQ/GNEerTgyaYm6GF/I0gvlFrjCdUIi/z3tVQ5
z3BRcNJDn/g1JP3E0Q7tXZbiYf23rGFgidZ9+nvMymlN5fkzlKykZ9st4w4kYs7O
I6IZ/uwxwCqyOJTpmfvqvKYGddiMcWQLM7qu2rgay7UzI13IMu237Yys9ZZvIdVL
qozC0JeuleKxOHwe12Ph+jEEYxT4MXkZS1xdkSdS7temk2qs5PX7GQRW/JOXVXvK
DJR6eV5fRsS4Umxkpt5rZ8gG8oy3tSTeI+6lPQwnOxx2893hJk3Lg/rrnrqE0FWA
s4+/x/EU+Ejbd0hbdis=
采集的数据
包含普通帖子和热门 (TOP) 帖子的两个数组:
- 帖子类型
- 帖子链接
- 文本
- 发布日期(Unix 格式)
- 评论数量
- 点赞数量
- 图标链接
- 图片宽度和高度
- 头像链接
- 帖子总数
应用场景
- 按标签收集帖子
设置
获取授权所需的必要选项
提示:如何找到 cookie?
进入任何个人主页,预先按 F12 打开调试模式。
通过 graphql/query 字符串(json 类型)查找存储爬虫工具所需值的请求。
点击该请求并从 cookie 参数中复制该值。

查询
必须指定标签作为查询,例如:
sport
cpu
结果输出示例
得益于内置的模板引擎 Template Toolkit,A-Parser 支持灵活的结果格式化,允许您以任意形式以及结构化形式(如 CSV 或 JSON)输出结果。
默认输出
结果格式:
$query:\nPosts:\n$posts.format('$link\n')
结果示例:
Posts:
https://www.instagram.com/p/B0FtUJboZC0/
https://www.instagram.com/p/B0Fs7maCIvq/
https://www.instagram.com/p/B0FszBRgOoS/
https://www.instagram.com/p/B0FrgVTBgFI/
https://www.instagram.com/p/B0FqeKvBSjC/
https://www.instagram.com/p/B0FogPGnOIG/
https://www.instagram.com/p/B0FoHSuCSUr/
https://www.instagram.com/p/B0Fl5JWgWts/
https://www.instagram.com/p/B0Fj_P0ji83/
https://www.instagram.com/p/B0Fgn5YHCiC/
https://www.instagram.com/p/B0Fd4uvAOyf/
https://www.instagram.com/p/B0FdfGjnVVs/
https://www.instagram.com/p/B0FdLEDgrTe/
https://www.instagram.com/p/B0FdEORCa0Z/
热门帖子链接
结果格式:
$top.format('$link\n')
结果示例:
https://www.instagram.com/p/CMMKTr4pi3o/
https://www.instagram.com/p/CMMKTCGHZ1c/
https://www.instagram.com/p/CMMKStkF59q/
https://www.instagram.com/p/CMMKRNun5Jg/
https://www.instagram.com/p/CMMKRI-JTp8/
https://www.instagram.com/p/CMMKQmfBD9O/
https://www.instagram.com/p/CMMKHsiF5GT/
https://www.instagram.com/p/CMMKQUpHXy4/
https://www.instagram.com/p/CMMKPL1HxTx/
https://www.instagram.com/p/CMMKOAkn1mP/
可用设置
| 参数 | 默认值 | 描述 |
|---|---|---|
| Count of pages with posts | 10 | 包含帖子的页面数量 |
| Treat disconnect as IP ban | ☑ | 将连接中断视为 IP 被封禁 |