帮助文档
搜索文档…
利用数据集筛选快速新建
在TensorBay中,您可以在已创建的数据集列表中通过筛选现有的数据,快速创建新的数据集,该操作将不会重复复制数据,无需担心数据量,操作快捷,节约大量存储成本。您在筛选操作中也可以通过可视化组件在线查看数据详情,标签分布等数据信息。
    在TensorBay数据集列表页,在创建数据集的下拉框中选取【Create by filter】,选择您需要筛选的数据集。
    代码示例:
1
def init(params: dict):
2
# 进行初始化工作,可以返回一个函数或None
3
return None
4
5
def run(data: dict, func=None) -> bool:
6
# 执行判断操作,data传入的是一个数据集文件相关的数据,func时init返回的函数
7
# 如果通过筛选返回True,否则返回False
8
return True
9
10
def teardown():
11
# 执行清理工作,没有返回值
12
pass
Copied!

输入筛选条件

在数据信息筛选条件框中,你可以根据筛选数据需求填写【数据名称】。也支持在【Segment 列表】中单选和多选segment。如果您需要的筛选数据集类型为融合数据集,可以选择有无数据标注的选项。根据此选项,可以在【标注信息条件筛选】框中进行进一步的标注信息筛选。

查看筛选记录

点击【搜索记录】,您可以查看过去您使用过的筛选条件和结果记录,方便后续根据筛选结果新建数据集。

使用标签筛选数据

    选择某个需要筛选的数据集后,将进入【数据列表】界面,您可以在左侧下拉框中选择您需要数据管理的版本。
    确定需要管理的版本后,您可以筛选该数据集的Segment,标注类型以及标注标签,得到数据集中符合筛选条件的数据,筛选后的数据将更新在右侧的数据列表中。

查看数据详情

    在【数据列表】页,您也可以通过右侧可视化中在线预览数据及查看具体的标注情况,使用详情请参考可视化插件指南

查看标签分布

    在【数据列表】页,您也可以在【查看模式】的下拉框中选择【统计指标】来查看各标注类型、标注标签的分布情况。

通过筛选快速新建数据集

    完成数据筛选完成后,选择右上角的【用此结果创建新数据集】。
    填写数据集名称并设置可见范围(公开或者私有)后,选择【确认创建】完成数据集创建。注:您可以在此界面看到已选数据和数据来源。
    数据集创建完成后,将转跳至新创建的数据集的详情页,可查看通过筛选创建的数据集。

高级搜索

除了可以使用基础筛选条件(segment名称、标注类型和有无标注)以外,融合数据集和普通数据集支持自定义高级搜索功能。您可以通过制定GitHub URL的方式获取文件,并以该文件作为筛选方法,对数据进行筛选。
    在数据集详情页中,点击【管理数据】,进入【数据列表】页面。
    点击左上角【搜索】,再点击【高级搜索】选项
    左下角会显示【高级搜索GitHub Repo Link】窗口。将您需要上传的文件链接复制入弹窗中,并点击【搜索】执行筛选。 注:填写链接需遵循https协议,即链接需用https开头,地址和revision之间需用“:”分割。
    代码示例:
1
def init(params: dict):
2
# 进行初始化工作,可以返回一个函数或None
3
return None
4
5
def run(data: dict, func=None) -> bool:
6
# 执行判断操作,data传入的是一个数据集文件相关的数据,func时init返回的函数
7
# 如果通过筛选返回True,否则返回False
8
return True
9
10
def teardown():
11
# 执行清理工作,没有返回值
12
pass
Copied!
    结束高级筛选之后,结果会自动录入【筛选记录】中。
最近更新 1mo ago