TensorBay 适用于算法研究的各个阶段
数据集管理从0到1
在TensorBay中,可通过以下三种方式管理自有数据:
上传自定义数据集,托管在TensorBay中;
将托管在其他云服务上的数据集转存到TensorBay上;
授权TensorBay读取和管理您在其他云服务上的数据。
完成创建数据集后,可使用可视化功能,在线预览数据集、查看数据集标注标签分布等,快速使用TensorBay管理您的数据集。
在算法研究中使用数据集
通过开发者工具,使用Python SDK、CLI或Open API来创建数据集、读取数据和标注,在pipline中使用数据集。TensorBay提供了可直接复制的代码示例,附在每个功能的对应页面,方便随时查阅。
通过开发者工具,可以直接上传、发布数据集,轻松实现数据集的迭代。此功能将在数据清洗与备份的流程中提高您的效率,只要完成了数据集发布,就可以在未来快捷地选用最合适的数据集版本。
加速数据集准备与版本管理
如果只有原数据文件,且正在为数据标注、管理标注信息苦恼,可以使用应用中的GroundTruth Tool或Teragood Service进行数据标注。团队版支持多人同时标注,事半功倍。
面对数据集太小或存在严重的数据分布不平衡的问题,难以满足研究需求,可尝试合并数据集或根据标签筛选并新建数据集,缩短数据集的准备时间。
如果需要进行数据清洗,强烈建议使用TensorBay强大的数据版本管理功能,不仅可以发布不同版本的数据,还能随时回退至任一已发布的版本,获得真正的清晰、可追溯的版本管理体验。
最后更新于