帮助文档
搜索文档…
TensorBay 适用于算法研究的各个阶段

数据集管理从0到1

  • 在TensorBay中,可通过以下三种方式管理自有数据:
  1. 1.
    上传自定义数据集,托管在TensorBay中;
  2. 2.
    将托管在其他云服务上的数据集转存到TensorBay上;
  3. 3.
    授权TensorBay读取和管理您在其他云服务上的数据。
  • 如果您还没有可用的数据集,Open Datasets 提供海量优质的公开数据集,部分数据集支持 Fork 功能,直接云端读取,无需下载,省去数据结构转换,即刻使用。
  • 完成创建数据集后,可使用可视化功能,在线预览数据集、查看数据集标注标签分布等,快速使用TensorBay管理您的数据集。

在算法研究中使用数据集

  • 通过开发者工具,使用Python SDK、CLI或Open API来创建数据集、读取数据和标注,在pipline中使用数据集。TensorBay提供了可直接复制的代码示例,附在每个功能的对应页面,方便随时查阅。
  • 通过开发者工具,可以直接上传、发布数据集,轻松实现数据集的迭代。此功能将在数据清洗与备份的流程中提高您的效率,只要完成了数据集发布,就可以在未来快捷地选用最合适的数据集版本。

加速数据集准备与版本管理

  • 如果只有原数据文件,且正在为数据标注、管理标注信息苦恼,可以使用应用中的GroundTruth ToolTeragood Service进行数据标注。团队版支持多人同时标注,事半功倍。
  • 面对数据集太小或存在严重的数据分布不平衡的问题,难以满足研究需求,可尝试合并数据集根据标签筛选并新建数据集,缩短数据集的准备时间。
  • 如果需要进行数据清洗,强烈建议使用TensorBay强大的数据版本管理功能,不仅可以发布不同版本的数据,还能随时回退至任一已发布的版本,获得真正的清晰、可追溯的版本管理体验。