利用数据集筛选快速新建
最后更新于
最后更新于
在TensorBay中,您可以在已创建的数据集列表中通过筛选现有的数据,快速创建新的数据集,该操作将不会重复复制数据,无需担心数据量,操作快捷,节约大量存储成本。您在筛选操作中也可以通过可视化组件在线查看数据详情,标签分布等数据信息。
在TensorBay数据集列表页,在创建数据集的下拉框中选取【Create by filter】,选择您需要筛选的数据集。
代码示例:
在数据信息筛选条件框中,你可以根据筛选数据需求填写【数据名称】。也支持在【Segment 列表】中单选和多选segment。如果您需要的筛选数据集类型为融合数据集,可以选择有无数据标注的选项。根据此选项,可以在【标注信息条件筛选】框中进行进一步的标注信息筛选。
点击请选择,选择需要搜索的基本信息,目前Box2D基础信息包括:Segment,数据名称,数据大小和是否包含标注。 点击添加【搜索条件】,添加其他搜索条件;点击搜索条件右上角,删除搜索条件。
点击【搜索记录】,您可以查看过去您使用过的搜索记录的状态。
【未保存】:首次搜索,此时搜索结果未保存,不能新建数据集。
【保存进度】:选中搜索结果,点击保存后,开始对搜索结果进行保存。
【已保存】:第二次搜索,此时结果全量展示并保存,可以用此结果新建数据集。
【未保存】记录:选中未保存的搜索记录,您可以在搜索栏查看搜索条件,在数据列表页查看文件数量及大小并预览100条搜索结果。
【已保存】记录:选中已保存的搜索记录,您可以在搜索栏查看搜索条件,在数据列表页查看文件数量及大小并查看全量搜索结果。
选择某个需要筛选的数据集后,将进入【数据列表】界面,您可以在左侧下拉框中选择您需要数据管理的版本。
确定需要管理的版本后,您可以筛选该数据集的Segment,标注类型以及标注标签,得到数据集中符合筛选条件的数据,筛选后的数据将更新在右侧的数据列表中。
在【数据列表】页,您也可以通过右侧可视化中在线预览数据及查看具体的标注情况,使用详情请参考可视化插件指南。
在【数据列表】页,您也可以在【查看模式】的下拉框中选择【统计指标】来查看各标注类型、标注标签的分布情况。
初次数据筛选完成后,搜索记录为【未保存】状态,此时您可以,在数据列表页查看文件数量及大小并预览100条搜索结果。
如果您希望用此搜索结果新建数据集,请先对搜索结果进行保存,已保存的搜索结果新建数据集。 选中您需要保存的搜索记录,点击【保存】按钮,对搜索结果进行保存。
保存完成后,搜索记录状态变更为已保存。选择【用此结果新建数据集】。
填写数据集名称并设置可见范围(公开或者私有)后,选择【确认创建】完成数据集创建。注:您可以在此界面看到已选数据和数据来源。
数据集创建完成后,将转跳至新创建的数据集的详情页,可查看通过筛选创建的数据集。
除了可以使用基础筛选条件(segment名称、标注类型和有无标注)以外,融合数据集和普通数据集支持自定义高级搜索功能。您可以通过制定GitHub URL的方式获取文件,并以该文件作为筛选方法,对数据进行筛选。
在数据集详情页中,点击【管理数据】,进入【数据列表】页面。
点击左上角【搜索】,再点击【高级搜索】选项
左下角会显示【高级搜索GitHub Repo Link】窗口。将您需要上传的文件链接复制入弹窗中,并点击【搜索】执行筛选。 注:填写链接需遵循https协议,即链接需用https开头,地址和revision之间需用“:”分割。
代码示例:
结束高级筛选之后,结果会自动录入【筛选记录】中。