# TensorBay 适用于算法研究的各个阶段

## 数据集管理从0到1 <a href="#id-1" id="id-1"></a>

* 在TensorBay中，可通过以下三种方式管理自有数据：

1. 上传自定义数据集，托管在TensorBay中；
2. 将托管在其他云服务上的数据集转存到TensorBay上；
3. 授权TensorBay读取和管理您在其他云服务上的数据。

{% content-ref url="data/create" %}
[create](https://docs.graviti.cn/guide/tensorbay/data/create)
{% endcontent-ref %}

{% content-ref url="data/authorize" %}
[authorize](https://docs.graviti.cn/guide/tensorbay/data/authorize)
{% endcontent-ref %}

* 如果您还没有可用的数据集，**Open Datasets** 提供海量优质的[公开数据集](https://www.graviti.cn/open-datasets)，部分数据集支持 [Fork](https://docs.graviti.cn/guide/tensorbay/data/fork) 功能，直接云端读取，无需下载，省去数据结构转换，即刻使用。
* 完成创建数据集后，可使用**可视化功能**，在线预览数据集、查看数据集标注标签分布等，快速使用TensorBay管理您的数据集。

## 在算法研究中使用数据集 <a href="#id-2" id="id-2"></a>

* 通过开发者工具，使用[Python SDK、CLI或Open API来创建数据集](https://docs.graviti.cn/dev-doc/tools)、读取数据和标注，在pipline中使用数据集。TensorBay提供了可直接复制的代码示例，附在每个功能的对应页面，方便随时查阅。
* 通过开发者工具，可以直接上传、发布数据集，轻松实现数据集的迭代。此功能将在数据清洗与备份的流程中提高您的效率，只要完成了数据集发布，就可以在未来快捷地选用最合适的数据集版本。

## 加速数据集准备与版本管理 <a href="#id-3" id="id-3"></a>

* 如果只有原数据文件，且正在为**数据标注、管理标注信息**苦恼，可以使用应用中的[GroundTruth Tool](https://app.gitbook.com/@grobot/s/gas-docs/~/drafts/-MYiY5W_19QMcY3TcX9C/apps/teragood-tools)或[Teragood Service](https://app.gitbook.com/@grobot/s/gas-docs/~/drafts/-MYiY5W_19QMcY3TcX9C/apps/teragood-service)进行数据标注。团队版支持多人同时标注，事半功倍。
* 面对**数据集太小**或存在严重的**数据分布不平衡**的问题，难以满足研究需求，可尝试[合并数据集](https://docs.graviti.cn/guide/tensorbay/data/merge)或[根据标签筛选并新建数据集](https://docs.graviti.cn/guide/tensorbay/data/filter)，缩短数据集的准备时间。
* 如果需要进行**数据清洗**，强烈建议使用TensorBay强大的[数据版本管理](https://docs.graviti.cn/guide/tensorbay/version)功能，不仅可以发布不同版本的数据，还能随时回退至任一已发布的版本，获得真正的清晰、可追溯的版本管理体验。
