数据集概念

数据集常见名词解释

在使用TensorBay和搜索数据集的过程中,主要涉及两类数据集的相关概念:普通数据集(Dataset)和融合数据集(FusionDataset)以下将给出其中常见的名词解释。

普通数据集

普通数据集是最常见的数据集,例如:MNIST、THUCNews等数据集,其数据文件之间没有特别关联或来自于单一的传感器。

  • Dataset:普通数据集

一个普通数据集包含一定数量的数据文件、标注信息以及与数据集相关的信息。每一个数据集可包含零到多个Segment和零到多个Catalog。

  • Segment:数据集划分

在TensorBay数据集结构中,Segment是仅次于普通数据集(Dataset)的数据级别。每一个Segment包含一定量的数据。例如:所有训练样本可以整合在同一个名为 “Train“ 的Segment中。

  • Catalog & SubCatalog:含多种标注类型的标注表 & 含单一标注类型的标注表

含多种标注类型的标注表(Catalog)包含该数据集中标注数据的所有标签meta信息。每一个含单一标注类型的标注表(SubCatalog)仅包含一种类型的meta信息。

  • Data:数据

在TensorBay数据集结构中,数据是最基本的数据级别。每条数据包含一个数据样本文件、该数据的标注标签及其他数据信息(例如:时间信息等)。

【示例】普通数据集的数据结构:

融合数据集

融合数据集是由多传感器收集的数据组成的数据集,常见于无人驾驶领域,例如:nuScenes和KITTI-tracking数据集。

  • FusionDataset:融合数据集

融合数据集支持数据来自多个传感器,包含所有Frames、标签、传感器和其他信息。一个融合数据集可包含多个FusionSegment。

  • FusionSegment

FusionSegment是仅次于融合数据集(FusionDataset)的数据级别。每一个FusionSegment包含一定量的Frames来储存不同传感器的信息。

  • Sensor:传感器

传感器(Sensor)在FusionSegment中用来记录收集信息的设备。目前,我们支持以下四种类别的传感器,每个传感器(Sensor)可储存传感器相关信息,包含传感器名称、外部参数和内部参数(仅限相机类别传感器参数标定)。

传感器

对应数据类别

相机(Camera)

图像(image)

鱼眼相机(FisheyeCamera)

图像(image)

激光雷达(Lidar)

点云(point cloud)

雷达(Radar)

点云(point cloud)

  • Frame:帧

帧(Frame)是FusionSegment的组成部分。一个帧(Frame)包含同一时间来自不同传感器的多种类型的数据文件。

  • Data in FusionDataset:融合数据集中的数据

一个帧(Frame)中的每个数据对应一个传感器(Sensor)收集的数据文件。融合数据集中的数据与普通数据集中的数据定义相同。

最后更新于