Appearance
数据抓取(web)
指令说明
在指定的浏览器对象 browser_obj 中抓取 batch_data,将结果输出为字典对象 table_pick
功能描述
本指令用于抓取网页中表格元素/批量元素的数据,常用于抓取批量数据时。
参数说明
| 参数名 | 类型 | 必填 | 说明 |
|---|---|---|---|
| 浏览器对象 | Browser | 是 | 选择要等待页面所在的浏览器对象 |
| 抓取对象 | WebPick(特殊元素对象) | 是 | 拾取需要抓取的元素(元素集合) |
| 是否抓取多页 | Bool | 是 | 选择需要是否抓取多页,默认抓取当前页 |
| 抓取页数 | Int | 否 | 抓取多页时有效,填写需要抓取的总页数,例如:抓取 10 页,则填写 10 |
| 翻页间隔时间,单位:秒 | Int | 否 | 抓取多页时有效,填写翻页的间隔时间,若间隔时间过短导致页面加载不完全,可适当增加翻页间隔时间 |
| 翻页按钮 | WebPick | 否 | 抓取多页时有效,拾取需要翻页按钮元素 |
| 模拟人工输入 | Bool | 否 | 抓取多页时有效,模拟人为操作方式点击翻页按钮,否则将根据元素的自动化接口进行输入 |
| 点击键位 | Enum | 否 | 抓取多页时有效,选择模拟鼠标点击的方式 |
| 存储到表格文档 | Bool | 是 | 可直接存储为 excel 文档 |
| 请选择文档存储路径 | Path | 否 | 存储到表格文档时有效,文档存储路径 |
| 输出类型 | Enum | 是 | 选择表格输出类型,默认输出为行 |
| 是否输出表头 | Bool | 是 | 选择是否输出表头,默认输出表头 |
返回值
返回值存在两种情况,
- 打开存储到表格文档时会返回文档路径
table_path和表格数据table_pick,不打开只会返回表格数据table_pick - 表格数据返回的格式也有两种,一种是按列输出返回为
dict类型,一种是按行输出为list类型
使用示例
示例 1:基本用法

示例 2:高级用法,table 元素
该类抓取是抓取一个表格元素,并获取到表格内的数据,表格元素越标准,获取的数据结构就越标准。



进入编辑抓取的界面,可以进行更高级的操作,该操作最终会更改抓取对象
抓取界面说明
| 操作项目 | 操作说明 |
|---|---|
| 表格名称 | 可以定义表格名称,即抓取对象 |
| 开始抓取 | 开始抓取批量数据的元素 |
| 重新抓取 | 已存在数据,重新抓取会重新覆盖原始数据 |
| 表头抓取 | 如果表头数据不够准确,可以使用表头抓取数据填充 |
| 清空 | 清空数据 |
| 编辑列名 | 修改列名 |
| 列数据处理 | - 提取数字:当前列提取出数字 - 去除首尾空格:当前列中去掉首尾空格 - 字符替换:当前列替换字符 - 添加前缀:当前列添加前缀 - 添加后缀:当前列添加后缀添加 - 时间格式化:选择当前列的时间格式 - 正则表达式:对当前列使用正则 - 清除所有条件:清除该列使用的条件 |
| 列筛选 | 可以添加筛选条件,作用于当前列 |
| 表格筛选 | 可以添加筛选条件,作用于整个表格 |
| 编辑表格元素 | 编辑表格元素路径,支持引入全局变量 |
示例 3:高级用法,相似元素
该类抓取时以非表格元素,相似元素组合成表格,每一列就是一个相似元素,一个相似元素获取到多个数据作为该列的列数据


| 操作项目 | 操作说明 |
|---|---|
| 新增一列 | 即在已有的列右侧新增一列数据 |
| 表头抓取 | 抓取表头数据 |
| 编辑列名 | 编辑列名称 |
| 复制列 | 复制当前列 |
| 向左插入列 | 向当前列的左边插入一列 |
| 向右插入列 | 向当前列的右边插入一列 |
| 补充相似数据 | 对当前列补充相似元素,扩大相似元素的捕获范围 |
| 编辑列元素 | 对当前列编辑元素路径,更改相似元素的捕获范围 |
| 切换列数据类型 | 对于捕获到的元素可以切换展示类型,例如链接,图片等可以显示为链接地址和图片地址,默认是文本展示 |
| 列数据处理 | - 提取数字:当前列提取出数字 - 去除首尾空格:当前列中去掉首尾空格 - 字符替换:当前列替换字符 - 添加前缀:当前列添加前缀 - 添加后缀:当前列添加后缀添加 - 时间格式化:选择当前列的时间格式 - 正则表达式:对当前列使用正则 - 清除所有条件:清除该列使用的条件 |
| 列筛选 | 可以添加筛选条件,作用于当前列 |
| 表格筛选 | 可以添加筛选条件,作用于整个表格 |
| 删除列 | 删除当前列 |
注意事项
- 抓取对象是一个表格元素加上配置数据组成的,或是多个或一个相似元素加个多个配置数据组成的
- 数据抓取抓取了表格元素后,就无法再添加相似元素,只能重新抓取,即表格元素无法和相似元素共存,反之,抓取了相似元素后,可以抓取表格元素,这时候表格元素不会再按照表格数据提取,而是以相似元素的形式抓取一列元素数据,不会抓取整个表格数据
- 抓取对象不能是一般拾取的元素,一般拾取的元素不具有抓取的配置信息
- 执行该指令时,请先安装并启用对应的浏览器插件
常见问题
暂不支持非网页抓取
解答:数据抓取仅支持 web 元素,请检查拾取对象是否是网页元素,或者检查对应的浏览器插件是否安装成功并启用
补充相似元素时提示不是相似元素
解答:拾取的元素与当前列的元素不是相似元素,路径存在差异,即使再界面上看起来是相似的