# 数据集概念

在使用TensorBay和搜索数据集的过程中，主要涉及两类数据集的相关概念：普通数据集（Dataset）和融合数据集（FusionDataset）以下将给出其中常见的名词解释。

## 普通数据集 <a href="#id-1" id="id-1"></a>

普通数据集是最常见的数据集，例如：MNIST、THUCNews等数据集，其数据文件之间没有特别关联或来自于单一的传感器。

* Dataset：普通数据集

一个普通数据集包含一定数量的数据文件、标注信息以及与数据集相关的信息。每一个数据集可包含零到多个Segment和零到多个Catalog。

* Segment：数据集划分

在TensorBay数据集结构中，Segment是仅次于普通数据集（Dataset）的数据级别。每一个Segment包含一定量的数据。例如：所有训练样本可以整合在同一个名为 “Train“ 的Segment中。

* Catalog & SubCatalog：含多种标注类型的标注表 & 含单一标注类型的标注表

含多种标注类型的标注表（Catalog）包含该数据集中标注数据的所有标签meta信息。每一个含单一标注类型的标注表（SubCatalog）仅包含一种类型的meta信息。

* Data：数据

在TensorBay数据集结构中，数据是最基本的数据级别。每条数据包含一个数据样本文件、该数据的标注标签及其他数据信息（例如：时间信息等）。

**【示例】普通数据集的数据结构：**

![](https://1609727380-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-MGHaHpCAkpKvpxq5ZJn%2F-MWOoND-co35Q_yaN__w%2F-MWP0nW4-VYw7j2wPLP1%2Fimage.png?alt=media\&token=d2222203-305d-4fbe-9b13-ef9775e7a267)

## 融合数据集 <a href="#id-2" id="id-2"></a>

融合数据集是由多传感器收集的数据组成的数据集，常见于无人驾驶领域，例如：nuScenes和KITTI-tracking数据集。

* FusionDataset：融合数据集

融合数据集支持数据来自多个传感器，包含所有Frames、标签、传感器和其他信息。一个融合数据集可包含多个FusionSegment。

* FusionSegment

FusionSegment是仅次于融合数据集（FusionDataset）的数据级别。每一个FusionSegment包含一定量的Frames来储存不同传感器的信息。

* Sensor：传感器

传感器（Sensor）在FusionSegment中用来记录收集信息的设备。目前，我们支持以下四种类别的传感器，每个传感器（Sensor）可储存传感器相关信息，包含传感器名称、外部参数和内部参数（仅限相机类别传感器参数标定）。

| 传感器                 | 对应数据类别          |
| ------------------- | --------------- |
| 相机（Camera）          | 图像（image）       |
| 鱼眼相机（FisheyeCamera） | 图像（image）       |
| 激光雷达（Lidar）         | 点云（point cloud） |
| 雷达（Radar）           | 点云（point cloud） |

* Frame：帧

帧（Frame）是FusionSegment的组成部分。一个帧（Frame）包含同一时间来自不同传感器的多种类型的数据文件。

* Data in FusionDataset：融合数据集中的数据

一个帧（Frame）中的每个数据对应一个传感器（Sensor）收集的数据文件。融合数据集中的数据与普通数据集中的数据定义相同。
