Skip to content

数据抓取(web)

指令说明

在指定的浏览器对象 browser_obj 中抓取 batch_data,将结果输出为字典对象 table_pick

功能描述

本指令用于抓取网页中表格元素/批量元素的数据,常用于抓取批量数据时。

参数说明

参数名类型必填说明
浏览器对象Browser选择要等待页面所在的浏览器对象
抓取对象WebPick(特殊元素对象)拾取需要抓取的元素(元素集合)
是否抓取多页Bool选择需要是否抓取多页,默认抓取当前页
抓取页数Int抓取多页时有效,填写需要抓取的总页数,例如:抓取 10 页,则填写 10
翻页间隔时间,单位:秒Int抓取多页时有效,填写翻页的间隔时间,若间隔时间过短导致页面加载不完全,可适当增加翻页间隔时间
翻页按钮WebPick抓取多页时有效,拾取需要翻页按钮元素
模拟人工输入Bool抓取多页时有效,模拟人为操作方式点击翻页按钮,否则将根据元素的自动化接口进行输入
点击键位Enum抓取多页时有效,选择模拟鼠标点击的方式
存储到表格文档Bool可直接存储为 excel 文档
请选择文档存储路径Path存储到表格文档时有效,文档存储路径
输出类型Enum选择表格输出类型,默认输出为行
是否输出表头Bool选择是否输出表头,默认输出表头

返回值

返回值存在两种情况,

  1. 打开存储到表格文档时会返回文档路径table_path和表格数据table_pick,不打开只会返回表格数据table_pick
  2. 表格数据返回的格式也有两种,一种是按列输出返回为dict 类型,一种是按行输出为list类型

使用示例

示例 1:基本用法

1761635182875

示例 2:高级用法,table 元素

该类抓取是抓取一个表格元素,并获取到表格内的数据,表格元素越标准,获取的数据结构就越标准。

1761635957118

1761638691745

1761639435736

进入编辑抓取的界面,可以进行更高级的操作,该操作最终会更改抓取对象

抓取界面说明

操作项目操作说明
表格名称可以定义表格名称,即抓取对象
开始抓取开始抓取批量数据的元素
重新抓取已存在数据,重新抓取会重新覆盖原始数据
表头抓取如果表头数据不够准确,可以使用表头抓取数据填充
清空清空数据
编辑列名修改列名
列数据处理- 提取数字:当前列提取出数字
- 去除首尾空格:当前列中去掉首尾空格
- 字符替换:当前列替换字符
- 添加前缀:当前列添加前缀
- 添加后缀:当前列添加后缀添加
- 时间格式化:选择当前列的时间格式
- 正则表达式:对当前列使用正则
- 清除所有条件:清除该列使用的条件
列筛选可以添加筛选条件,作用于当前列
表格筛选可以添加筛选条件,作用于整个表格
编辑表格元素编辑表格元素路径,支持引入全局变量

示例 3:高级用法,相似元素

该类抓取时以非表格元素,相似元素组合成表格,每一列就是一个相似元素,一个相似元素获取到多个数据作为该列的列数据

1761639643207

1761639920861

操作项目操作说明
新增一列即在已有的列右侧新增一列数据
表头抓取抓取表头数据
编辑列名编辑列名称
复制列复制当前列
向左插入列向当前列的左边插入一列
向右插入列向当前列的右边插入一列
补充相似数据对当前列补充相似元素,扩大相似元素的捕获范围
编辑列元素对当前列编辑元素路径,更改相似元素的捕获范围
切换列数据类型对于捕获到的元素可以切换展示类型,例如链接,图片等可以显示为链接地址和图片地址,默认是文本展示
列数据处理- 提取数字:当前列提取出数字
- 去除首尾空格:当前列中去掉首尾空格
- 字符替换:当前列替换字符
- 添加前缀:当前列添加前缀
- 添加后缀:当前列添加后缀添加
- 时间格式化:选择当前列的时间格式
- 正则表达式:对当前列使用正则
- 清除所有条件:清除该列使用的条件
列筛选可以添加筛选条件,作用于当前列
表格筛选可以添加筛选条件,作用于整个表格
删除列删除当前列

注意事项

  • 抓取对象是一个表格元素加上配置数据组成的,或是多个或一个相似元素加个多个配置数据组成的
  • 数据抓取抓取了表格元素后,就无法再添加相似元素,只能重新抓取,即表格元素无法和相似元素共存,反之,抓取了相似元素后,可以抓取表格元素,这时候表格元素不会再按照表格数据提取,而是以相似元素的形式抓取一列元素数据,不会抓取整个表格数据
  • 抓取对象不能是一般拾取的元素,一般拾取的元素不具有抓取的配置信息
  • 执行该指令时,请先安装并启用对应的浏览器插件

常见问题

暂不支持非网页抓取

解答:数据抓取仅支持 web 元素,请检查拾取对象是否是网页元素,或者检查对应的浏览器插件是否安装成功并启用

补充相似元素时提示不是相似元素

解答:拾取的元素与当前列的元素不是相似元素,路径存在差异,即使再界面上看起来是相似的

相关指令