数据集概念
数据集常见名词解释
最后更新于
数据集常见名词解释
最后更新于
在使用TensorBay和搜索数据集的过程中,主要涉及两类数据集的相关概念:普通数据集(Dataset)和融合数据集(FusionDataset)以下将给出其中常见的名词解释。
普通数据集是最常见的数据集,例如:MNIST、THUCNews等数据集,其数据文件之间没有特别关联或来自于单一的传感器。
Dataset:普通数据集
一个普通数据集包含一定数量的数据文件、标注信息以及与数据集相关的信息。每一个数据集可包含零到多个Segment和零到多个Catalog。
Segment:数据集划分
在TensorBay数据集结构中,Segment是仅次于普通数据集(Dataset)的数据级别。每一个Segment包含一定量的数据。例如:所有训练样本可以整合在同一个名为 “Train“ 的Segment中。
Catalog & SubCatalog:含多种标注类型的标注表 & 含单一标注类型的标注表
含多种标注类型的标注表(Catalog)包含该数据集中标注数据的所有标签meta信息。每一个含单一标注类型的标注表(SubCatalog)仅包含一种类型的meta信息。
Data:数据
在TensorBay数据集结构中,数据是最基本的数据级别。每条数据包含一个数据样本文件、该数据的标注标签及其他数据信息(例如:时间信息等)。
【示例】普通数据集的数据结构:
融合数据集是由多传感器收集的数据组成的数据集,常见于无人驾驶领域,例如:nuScenes和KITTI-tracking数据集。
FusionDataset:融合数据集
融合数据集支持数据来自多个传感器,包含所有Frames、标签、传感器和其他信息。一个融合数据集可包含多个FusionSegment。
FusionSegment
FusionSegment是仅次于融合数据集(FusionDataset)的数据级别。每一个FusionSegment包含一定量的Frames来储存不同传感器的信息。
Sensor:传感器
传感器(Sensor)在FusionSegment中用来记录收集信息的设备。目前,我们支持以下四种类别的传感器,每个传感器(Sensor)可储存传感器相关信息,包含传感器名称、外部参数和内部参数(仅限相机类别传感器参数标定)。
Frame:帧
帧(Frame)是FusionSegment的组成部分。一个帧(Frame)包含同一时间来自不同传感器的多种类型的数据文件。
Data in FusionDataset:融合数据集中的数据
一个帧(Frame)中的每个数据对应一个传感器(Sensor)收集的数据文件。融合数据集中的数据与普通数据集中的数据定义相同。
传感器
对应数据类别
相机(Camera)
图像(image)
鱼眼相机(FisheyeCamera)
图像(image)
激光雷达(Lidar)
点云(point cloud)
雷达(Radar)
点云(point cloud)