帮助文档
  • 帮助文档
  • 注册账号
    • 个人设置
    • 团队设置
  • 开发者文档
    • 开发者工具
      • Python SDK
      • CLI
      • Open API
        • Dataset Operation
        • Data Operation
      • 示例演示
        • 模型训练
        • 数据挖掘
  • 产品使用文档
    • TensorBay
      • TensorBay 适用于算法研究的各个阶段
      • 概念说明
      • 快速入门 - 开发者版
      • 快速入门 - 团队版
      • 数据集准备
        • 新建数据集
        • 管理云服务上的数据
          • 阿里云oss用户授权RAM
        • 利用数据集筛选快速新建
        • 数据合并拆分及复制移动
        • 通过Fork使用公开数据集
      • 数据版本管理
        • 管理数据文件
        • 管理标注数据
        • 管理数据集信息
        • 管理版本信息
        • 管理数据集分支
        • 数据集活动
        • 数据集设置
      • Pharos 数据可视化
        • 获取 Pharos
        • Pharos 使用指南
      • 团队协作
        • 创建团队空间
        • 资料/成员管理
        • 数据集管理
        • 团队活动日志
      • Action 流程自动化
        • 新建工作流
        • 运行工作流
        • 管理工作流
        • YAML语法说明
        • Crontab语法说明
        • 自动化配置
      • 如何与Pipeline集成
    • Open Datasets
      • 数据集概念
      • 查找公开数据集
      • 在线预览数据及标签分布
      • 在线使用并管理数据集
      • 下载公开数据集
      • 找不到想要的数据集?
  • APPs
    • GroundTruth Tools
      • 图片标注
      • 语音分类
    • TeraGood Service
      • 需求方使用手册
      • 运营方使用手册
      • 标注方使用手册
    • Sextant
      • 新建评估
      • 自定义Metrics
      • 参与评估
      • 查看评估结果
  • 更新日志
  • 格物钛官网
由 GitBook 提供支持
在本页
  • 输入筛选条件
  • 查看搜索记录
  • 查看记录首页
  • 选中搜索记录
  • 使用标签筛选数据
  • 查看数据详情
  • 查看标签分布
  • 通过搜索快速新建数据集
  • 高级搜索

这有帮助吗?

  1. 产品使用文档
  2. TensorBay
  3. 数据集准备

利用数据集筛选快速新建

上一页阿里云oss用户授权RAM下一页数据合并拆分及复制移动

最后更新于3年前

这有帮助吗?

在TensorBay中,您可以在已创建的数据集列表中通过筛选现有的数据,快速创建新的数据集,该操作将不会重复复制数据,无需担心数据量,操作快捷,节约大量存储成本。您在筛选操作中也可以通过可视化组件在线查看数据详情,标签分布等数据信息。

  • 在TensorBay数据集列表页,在创建数据集的下拉框中选取【Create by filter】,选择您需要筛选的数据集。

  • 代码示例:

def init(params: dict):
    # 进行初始化工作,可以返回一个函数或None
    return None

def run(data: dict, func=None) -> bool:
    # 执行判断操作,data传入的是一个数据集文件相关的数据,func时init返回的函数
    # 如果通过筛选返回True,否则返回False
    return True

def teardown():
    # 执行清理工作,没有返回值
    pass

输入筛选条件

在数据信息筛选条件框中,你可以根据筛选数据需求填写【数据名称】。也支持在【Segment 列表】中单选和多选segment。如果您需要的筛选数据集类型为融合数据集,可以选择有无数据标注的选项。根据此选项,可以在【标注信息条件筛选】框中进行进一步的标注信息筛选。

  • 点击请选择,选择需要搜索的基本信息,目前Box2D基础信息包括:Segment,数据名称,数据大小和是否包含标注。 点击添加【搜索条件】,添加其他搜索条件;点击搜索条件右上角,删除搜索条件。

查看搜索记录

查看记录首页

  • 点击【搜索记录】,您可以查看过去您使用过的搜索记录的状态。

【未保存】:首次搜索,此时搜索结果未保存,不能新建数据集。

【保存进度】:选中搜索结果,点击保存后,开始对搜索结果进行保存。

【已保存】:第二次搜索,此时结果全量展示并保存,可以用此结果新建数据集。

选中搜索记录

  • 【未保存】记录:选中未保存的搜索记录,您可以在搜索栏查看搜索条件,在数据列表页查看文件数量及大小并预览100条搜索结果。

  • 【已保存】记录:选中已保存的搜索记录,您可以在搜索栏查看搜索条件,在数据列表页查看文件数量及大小并查看全量搜索结果。

使用标签筛选数据

  • 选择某个需要筛选的数据集后,将进入【数据列表】界面,您可以在左侧下拉框中选择您需要数据管理的版本。

  • 确定需要管理的版本后,您可以筛选该数据集的Segment,标注类型以及标注标签,得到数据集中符合筛选条件的数据,筛选后的数据将更新在右侧的数据列表中。

查看数据详情

查看标签分布

  • 在【数据列表】页,您也可以在【查看模式】的下拉框中选择【统计指标】来查看各标注类型、标注标签的分布情况。

通过搜索快速新建数据集

  • 初次数据筛选完成后,搜索记录为【未保存】状态,此时您可以,在数据列表页查看文件数量及大小并预览100条搜索结果。

  • 如果您希望用此搜索结果新建数据集,请先对搜索结果进行保存,已保存的搜索结果新建数据集。 选中您需要保存的搜索记录,点击【保存】按钮,对搜索结果进行保存。

  • 保存完成后,搜索记录状态变更为已保存。选择【用此结果新建数据集】。

  • 填写数据集名称并设置可见范围(公开或者私有)后,选择【确认创建】完成数据集创建。注:您可以在此界面看到已选数据和数据来源。

  • 数据集创建完成后,将转跳至新创建的数据集的详情页,可查看通过筛选创建的数据集。

高级搜索

除了可以使用基础筛选条件(segment名称、标注类型和有无标注)以外,融合数据集和普通数据集支持自定义高级搜索功能。您可以通过制定GitHub URL的方式获取文件,并以该文件作为筛选方法,对数据进行筛选。

  • 在数据集详情页中,点击【管理数据】,进入【数据列表】页面。

  • 点击左上角【搜索】,再点击【高级搜索】选项

  • 左下角会显示【高级搜索GitHub Repo Link】窗口。将您需要上传的文件链接复制入弹窗中,并点击【搜索】执行筛选。 注:填写链接需遵循https协议,即链接需用https开头,地址和revision之间需用“:”分割。

  • 代码示例:

def init(params: dict):
    # 进行初始化工作,可以返回一个函数或None
    return None

def run(data: dict, func=None) -> bool:
    # 执行判断操作,data传入的是一个数据集文件相关的数据,func时init返回的函数
    # 如果通过筛选返回True,否则返回False
    return True

def teardown():
    # 执行清理工作,没有返回值
    pass
  • 结束高级筛选之后,结果会自动录入【筛选记录】中。

在【数据列表】页,您也可以通过右侧可视化中在线预览数据及查看具体的标注情况,使用详情请参考。

可视化插件指南
Pharos 使用指南