跳转到主要内容

Social::Instagram::Tag - Instagram 标签帖子爬虫工具

Social::Instagram::Tag

爬虫工具概览

Social::Instagram::TagSocial::Instagram::Tag – 从 Instagram 按标签抓取帖子。自动采集所有数据:帖子类型、文本、发布日期、评论数、点赞数等。在采集评论文本的同时,还会采集作者的个人资料链接、评论点赞数以及创建时间。

您可以利用自动查询扩展、从文件读取子查询、遍历字母数字组合以及列表,以获取尽可能多的结果。通过使用结果过滤,您可以立即清理结果,删除所有不需要的垃圾内容(使用排除词)。

A-Parser 的功能允许您保存 Social::Instagram::Tag 爬虫工具的数据抓取设置以便日后使用(预设),设置数据抓取计划等等。

得益于内置强大的模板引擎 Template Toolkit,结果保存可以采用您需要的任何形式和结构,这允许对结果应用额外的逻辑,并以各种格式输出数据,包括 JSON、SQL 和 CSV

备注

该爬虫工具使用已授权账号的数据。 为了使爬虫工具正常工作,必须为 cookie 选项指定值。

爬虫工具应用案例

按标签收集所有帖子

应用场景示例
  1. 覆盖 Count of pages with posts 选项,在列表中选择 100
  2. 覆盖 Result format 选项,将值设为 $posts.format('$link\n')
  3. 在查询中指定标签。
下载示例

如何将示例导入 A-Parser

eJx1U01v2zAM/S9CgK5AEKSHXXxLAwTokNVdk56SHAibNrTIoibJWQvD/72U7NhJ
P24i+fj4KJKN8OCO7smiQ+9EsmuEiW+RiBwLqJUXU2HAOrQhvBMbyiSoJHnQzkNp
oUqSLZQMGuCN8G8GmYBOaK3MkYMyZ9tAiRnVOlCeQNWMuZvP2+8TCrIVeNbTyehz
xMSQ827WRX/cTJTUx/1e39yK9nCYig7vVjEc4XezvqkhuIETbimUkApH94qtR6hi
kRw8hui5zu3MvwYGyHPpJWlQXYXwLWPVFy3/RZGaGMtPK9GtLFXs8hgJgvPtrG4n
JtEWTFHH3D9djkgKUA6nwrHUFbCQ/GNEerTgyaYm6GF/I0gvlFrjCdUIi/z3tVQ5
z3BRcNJDn/g1JP3E0Q7tXZbiYf23rGFgidZ9+nvMymlN5fkzlKykZ9st4w4kYs7O
I6IZ/uwxwCqyOJTpmfvqvKYGddiMcWQLM7qu2rgay7UzI13IMu237Yys9ZZvIdVL
qozC0JeuleKxOHwe12Ph+jEEYxT4MXkZS1xdkSdS7temk2qs5PX7GQRW/JOXVXvK
DJR6eV5fRsS4Umxkpt5rZ8gG8oy3tSTeI+6lPQwnOxx2893hJk3Lg/rrnrqE0FWA
s4+/x/EU+Ejbd0hbdis=

采集的数据

包含普通帖子和热门 (TOP) 帖子的两个数组:

  • 帖子类型
  • 帖子链接
  • 文本
  • 发布日期(Unix 格式)
  • 评论数量
  • 点赞数量
  • 图标链接
  • 图片宽度和高度
  • 头像链接
  • 帖子总数

应用场景

  • 按标签收集帖子

设置

获取授权所需的必要选项

提示:如何找到 cookie?

进入任何个人主页,预先按 F12 打开调试模式。 调试 通过 graphql/query 字符串(json 类型)查找存储爬虫工具所需值的请求。 搜索 点击该请求并从 cookie 参数中复制该值。 数值

查询

必须指定标签作为查询,例如:

sport  
cpu

结果输出示例

得益于内置的模板引擎 Template Toolkit,A-Parser 支持灵活的结果格式化,允许您以任意形式以及结构化形式(如 CSV 或 JSON)输出结果。

默认输出

结果格式:

$query:\nPosts:\n$posts.format('$link\n')

结果示例:

Posts:  
https://www.instagram.com/p/B0FtUJboZC0/
https://www.instagram.com/p/B0Fs7maCIvq/
https://www.instagram.com/p/B0FszBRgOoS/
https://www.instagram.com/p/B0FrgVTBgFI/
https://www.instagram.com/p/B0FqeKvBSjC/
https://www.instagram.com/p/B0FogPGnOIG/
https://www.instagram.com/p/B0FoHSuCSUr/
https://www.instagram.com/p/B0Fl5JWgWts/
https://www.instagram.com/p/B0Fj_P0ji83/
https://www.instagram.com/p/B0Fgn5YHCiC/
https://www.instagram.com/p/B0Fd4uvAOyf/
https://www.instagram.com/p/B0FdfGjnVVs/
https://www.instagram.com/p/B0FdLEDgrTe/
https://www.instagram.com/p/B0FdEORCa0Z/

热门帖子链接

结果格式:

$top.format('$link\n')

结果示例:

https://www.instagram.com/p/CMMKTr4pi3o/
https://www.instagram.com/p/CMMKTCGHZ1c/
https://www.instagram.com/p/CMMKStkF59q/
https://www.instagram.com/p/CMMKRNun5Jg/
https://www.instagram.com/p/CMMKRI-JTp8/
https://www.instagram.com/p/CMMKQmfBD9O/
https://www.instagram.com/p/CMMKHsiF5GT/
https://www.instagram.com/p/CMMKQUpHXy4/
https://www.instagram.com/p/CMMKPL1HxTx/
https://www.instagram.com/p/CMMKOAkn1mP/

可用设置

参数默认值描述
Count of pages with posts10包含帖子的页面数量
Treat disconnect as IP ban将连接中断视为 IP 被封禁