利用数据集筛选快速新建

在TensorBay中,您可以在已创建的数据集列表中通过筛选现有的数据,快速创建新的数据集,该操作将不会重复复制数据,无需担心数据量,操作快捷,节约大量存储成本。您在筛选操作中也可以通过可视化组件在线查看数据详情,标签分布等数据信息。

  • 在TensorBay数据集列表页,在创建数据集的下拉框中选取【Create by filter】,选择您需要筛选的数据集。

  • 代码示例:

def init(params: dict):
    # 进行初始化工作,可以返回一个函数或None
    return None

def run(data: dict, func=None) -> bool:
    # 执行判断操作,data传入的是一个数据集文件相关的数据,func时init返回的函数
    # 如果通过筛选返回True,否则返回False
    return True

def teardown():
    # 执行清理工作,没有返回值
    pass

输入筛选条件

在数据信息筛选条件框中,你可以根据筛选数据需求填写【数据名称】。也支持在【Segment 列表】中单选和多选segment。如果您需要的筛选数据集类型为融合数据集,可以选择有无数据标注的选项。根据此选项,可以在【标注信息条件筛选】框中进行进一步的标注信息筛选。

  • 点击请选择,选择需要搜索的基本信息,目前Box2D基础信息包括:Segment,数据名称,数据大小和是否包含标注。 点击添加【搜索条件】,添加其他搜索条件;点击搜索条件右上角,删除搜索条件。

查看搜索记录

查看记录首页

  • 点击【搜索记录】,您可以查看过去您使用过的搜索记录的状态。

【未保存】:首次搜索,此时搜索结果未保存,不能新建数据集。

【保存进度】:选中搜索结果,点击保存后,开始对搜索结果进行保存。

【已保存】:第二次搜索,此时结果全量展示并保存,可以用此结果新建数据集。

选中搜索记录

  • 【未保存】记录:选中未保存的搜索记录,您可以在搜索栏查看搜索条件,在数据列表页查看文件数量及大小并预览100条搜索结果。

  • 【已保存】记录:选中已保存的搜索记录,您可以在搜索栏查看搜索条件,在数据列表页查看文件数量及大小并查看全量搜索结果。

使用标签筛选数据

  • 选择某个需要筛选的数据集后,将进入【数据列表】界面,您可以在左侧下拉框中选择您需要数据管理的版本。

  • 确定需要管理的版本后,您可以筛选该数据集的Segment,标注类型以及标注标签,得到数据集中符合筛选条件的数据,筛选后的数据将更新在右侧的数据列表中。

查看数据详情

  • 在【数据列表】页,您也可以通过右侧可视化中在线预览数据及查看具体的标注情况,使用详情请参考可视化插件指南

查看标签分布

  • 在【数据列表】页,您也可以在【查看模式】的下拉框中选择【统计指标】来查看各标注类型、标注标签的分布情况。

通过搜索快速新建数据集

  • 初次数据筛选完成后,搜索记录为【未保存】状态,此时您可以,在数据列表页查看文件数量及大小并预览100条搜索结果。

  • 如果您希望用此搜索结果新建数据集,请先对搜索结果进行保存,已保存的搜索结果新建数据集。 选中您需要保存的搜索记录,点击【保存】按钮,对搜索结果进行保存。

  • 保存完成后,搜索记录状态变更为已保存。选择【用此结果新建数据集】。

  • 填写数据集名称并设置可见范围(公开或者私有)后,选择【确认创建】完成数据集创建。注:您可以在此界面看到已选数据和数据来源。

  • 数据集创建完成后,将转跳至新创建的数据集的详情页,可查看通过筛选创建的数据集。

高级搜索

除了可以使用基础筛选条件(segment名称、标注类型和有无标注)以外,融合数据集和普通数据集支持自定义高级搜索功能。您可以通过制定GitHub URL的方式获取文件,并以该文件作为筛选方法,对数据进行筛选。

  • 在数据集详情页中,点击【管理数据】,进入【数据列表】页面。

  • 点击左上角【搜索】,再点击【高级搜索】选项

  • 左下角会显示【高级搜索GitHub Repo Link】窗口。将您需要上传的文件链接复制入弹窗中,并点击【搜索】执行筛选。 注:填写链接需遵循https协议,即链接需用https开头,地址和revision之间需用“:”分割。

  • 代码示例:

def init(params: dict):
    # 进行初始化工作,可以返回一个函数或None
    return None

def run(data: dict, func=None) -> bool:
    # 执行判断操作,data传入的是一个数据集文件相关的数据,func时init返回的函数
    # 如果通过筛选返回True,否则返回False
    return True

def teardown():
    # 执行清理工作,没有返回值
    pass
  • 结束高级筛选之后,结果会自动录入【筛选记录】中。

最后更新于