# 利用数据集筛选快速新建

在TensorBay中，您可以在已创建的数据集列表中通过筛选现有的数据，快速创建新的数据集，该操作将不会重复复制数据，无需担心数据量，操作快捷，节约大量存储成本。您在筛选操作中也可以通过可视化组件在线查看数据详情，标签分布等数据信息。

* 在TensorBay数据集列表页，在创建数据集的下拉框中选取【Create by filter】，选择您需要筛选的数据集。
* 代码示例：

```
def init(params: dict):
    # 进行初始化工作，可以返回一个函数或None
    return None

def run(data: dict, func=None) -> bool:
    # 执行判断操作，data传入的是一个数据集文件相关的数据，func时init返回的函数
    # 如果通过筛选返回True，否则返回False
    return True

def teardown():
    # 执行清理工作，没有返回值
    pass
```

![](https://1609727380-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-MGHaHpCAkpKvpxq5ZJn%2F-MWcPjGIY508nhWtzoDA%2F-MWcQ0t8c8CmCDHCToOo%2F1.jpg?alt=media\&token=c721a288-0aa7-475b-90fa-b535d66b05d3)

## 输入筛选条件

在数据信息筛选条件框中，你可以根据筛选数据需求填写【数据名称】。也支持在【Segment 列表】中单选和多选segment。如果您需要的筛选数据集类型为融合数据集，可以选择有无数据标注的选项。根据此选项，可以在【标注信息条件筛选】框中进行进一步的标注信息筛选。

![](https://lh5.googleusercontent.com/2RGuBbLpB-NIO4Ms_nlG9v4qcdEV_489zkZywXZ7gRj-qoL-izi3gLcaQ-JPFWhBM288-1VACbjjtUjRDofvKVo7MU9Ixa64ys0WuvhzxdqfgtlFnNa7V2PoLVaC26yQUBXMLksD)

* 点击请选择，选择需要搜索的基本信息，目前Box2D基础信息包括：Segment，数据名称，数据大小和是否包含标注。 点击添加【搜索条件】，添加其他搜索条件；点击搜索条件右上角，删除搜索条件。

![](https://lh4.googleusercontent.com/lYK-bOB0ZYyaLXiddu3e_XCS_D7ZmQosVM1NajLrP5TEMm1kMX9QFCnNvLy5-DBspcgRy5q5SPpujRwlhbg4HbEIPS4ficcz7tk3KEkPgRmN1hoFfVzL92E0lnAdL7mAruHsAXWE)

## 查看搜索记录

### 查看记录首页

* 点击【搜索记录】，您可以查看过去您使用过的搜索记录的状态。

【未保存】：首次搜索，此时搜索结果未保存，不能新建数据集。&#x20;

【保存进度】：选中搜索结果，点击保存后，开始对搜索结果进行保存。&#x20;

【已保存】：第二次搜索，此时结果全量展示并保存，可以用此结果新建数据集。

![](https://lh3.googleusercontent.com/oaLKrCYw6N3X42Kct2ep5Cr5j4aMq0DO_atlvC5YD1JDpr-SgljDI9Rdpo5Ir5AGuYEzz77O9MZCxOSISRX9MlnFAECCOmUhlIpzikmzspKZS1f9_js9W6vwCGfKHcExHl8sxniQ)

### 选中搜索记录

* 【未保存】记录：选中未保存的搜索记录，您可以在搜索栏查看搜索条件，在数据列表页查看文件数量及大小并预览100条搜索结果。

![](https://lh3.googleusercontent.com/VpEeN1HWKA5QDmdXNYq1bsLU7v9HRQ7uCHXXEca6DhM_rtoivjNEXjZyAi5HH8kmzJh4Um2-DYZElV1HegHTTehScjrv3HP1Ew4t09FEdqVpei8HMjrzjGkLuYeH9kC4e9WeR2C1)

* 【已保存】记录：选中已保存的搜索记录，您可以在搜索栏查看搜索条件，在数据列表页查看文件数量及大小并查看全量搜索结果。

![](https://lh4.googleusercontent.com/vJtj2OkkOrSba-mIO434TnpOqcUjbfSd8sgT6cJbg1aLo53IqWYzPp7IU2Dg7QvgdGR0SKa7vPflNJlHt9-ORItdVJk8LgFws4wWuItLIWjfbW-v9dQ9bXQmxqNIWHpE0z8QwWn6)

## 使用标签筛选数据 <a href="#id-1" id="id-1"></a>

* 选择某个需要筛选的数据集后，将进入【数据列表】界面，您可以在左侧下拉框中选择您需要数据管理的版本。

![](https://lh6.googleusercontent.com/3-CdZkKzLZER3J9pneTJvUHyHHp9xfGKPuDt02ET3jS3GJSezaoGSkelTQlLB_rVWgcZ5R6UOWj0gIN8jRmQk2-Gw0XysdGEu6yjFW4yhHnKC9iII72cGBySqSX0PxpDj1AkhINc)

* 确定需要管理的版本后，您可以筛选该数据集的Segment，标注类型以及标注标签，得到数据集中符合筛选条件的数据，筛选后的数据将更新在右侧的数据列表中。

![](https://1609727380-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-MGHaHpCAkpKvpxq5ZJn%2F-Mi5dQ5yxbxXUOKDwTHy%2F-Mi5jSFs9aB1AJgpCgnb%2Fb83745e040cc958d762f6a4d036f0ac.png?alt=media\&token=457b7cd6-aae1-487d-bb80-b0f5d07cc30b)

## 查看数据详情 <a href="#id-2" id="id-2"></a>

* 在【数据列表】页，您也可以通过右侧可视化中在线预览数据及查看具体的标注情况，使用详情请参考[可视化插件指南](https://docs.graviti.cn/guide/tensorbay/visualization/visualization-widgets)。

![](https://lh6.googleusercontent.com/syfwphjWyfokrmnxArOaKiFym5js3UGoNaCYi0n68mYlFT_sRKTXBb4i4p4AHxn5_pYs1gomz8sx0kIGCmBbaLFcRGu1KAGRfphxC8GwDSZQ2irZKEd-_nPhzvoXoQinRkfyEkDT)

{% content-ref url="../visualization/visualization-widgets" %}
[visualization-widgets](https://docs.graviti.cn/guide/tensorbay/visualization/visualization-widgets)
{% endcontent-ref %}

## 查看标签分布 <a href="#id-3" id="id-3"></a>

* 在【数据列表】页，您也可以在【查看模式】的下拉框中选择【统计指标】来查看各标注类型、标注标签的分布情况。

![](https://lh6.googleusercontent.com/klgZGjKFrCjB7EWT6haEwam8ruWUlAkErs5XoXAhctwCQzfKLAyza5nCeXDgxOlOBv63ApFWyXxWOhEdgfe_hL6NI1INCnc9fGUiy8jTmqA-cupB5i0y-UTtT0Lz1E6WD8LXV5xw)

## 通过搜索快速新建数据集 <a href="#id-4" id="id-4"></a>

* 初次数据筛选完成后，搜索记录为【未保存】状态，此时您可以，在数据列表页查看文件数量及大小并预览100条搜索结果。

![](https://lh3.googleusercontent.com/ayQXbfNTGfH7_mZabhGYh7Xq4z7nx0wRzImZ8EKqw30NE-tI_9LX2NXAwoAOCgl5UnXEXphLhwI-jKrbM7ywIiSqpGtLQDTb_qjyPj679b4-Dl64PSiNioUOWCn3yxa-SPOlawhT)

* 如果您希望用此搜索结果新建数据集，请先对搜索结果进行保存，已保存的搜索结果新建数据集。 选中您需要保存的搜索记录，点击【保存】按钮，对搜索结果进行保存。

![](https://lh4.googleusercontent.com/f7ttMovfC0EmzpN_Tb0qbANQ3NvYNAlS9bgJ6JAalTFx4-QfM6DLisVkWo-bK2MHeKEJHX1G1brW6i32MUfcbHOVpULLTZ607fIdvaa8_CcFyakUDLg7DqC4qu6yyfEmrpwVzDHY)

* 保存完成后，搜索记录状态变更为已保存。选择【用此结果新建数据集】。

![](https://lh3.googleusercontent.com/bPfsCl3GYUrvEH8u9MMG3tzPRM9Y_dMDEzH_lVXKvnLXAlk1VK_S-j_mX1E1Doilij2g5lr8V8rZCISQhvpiQKyLBCXfe4xiLpM5VWCVnIEiqKNwyEVffbmNPXVspXBCrdo_dKHp)

* 填写数据集名称并设置可见范围（公开或者私有）后，选择【确认创建】完成数据集创建。注：您可以在此界面看到已选数据和数据来源。

![](https://1609727380-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-MGHaHpCAkpKvpxq5ZJn%2F-Mi5dQ5yxbxXUOKDwTHy%2F-Mi5mj3fbFvg-z_S2ESU%2Fc9bc88685a9d88d35ff917939d571b9.png?alt=media\&token=768e1b8e-daa7-421a-b237-41766007aa98)

* 数据集创建完成后，将转跳至新创建的数据集的详情页，可查看通过筛选创建的数据集。

## **高级搜索**

除了可以使用基础筛选条件（segment名称、标注类型和有无标注）以外，融合数据集和普通数据集支持自定义高级搜索功能。您可以通过制定GitHub URL的方式获取文件，并以该文件作为筛选方法，对数据进行筛选。

* 在数据集详情页中，点击【管理数据】，进入【数据列表】页面。

![](https://1609727380-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-MGHaHpCAkpKvpxq5ZJn%2F-MiKpEu7EjQeNv5GD01E%2F-MiL2H_SRyFEADH2nIYB%2F27fa2ad4364b5fae8063e4cde17d2d8.png?alt=media\&token=cbdb83b6-1130-42f4-b4b0-c3cae9578b8d)

* 点击左上角【搜索】，再点击【高级搜索】选项
* 左下角会显示【高级搜索GitHub Repo Link】窗口。将您需要上传的文件链接复制入弹窗中，并点击【搜索】执行筛选。\
  注：填写链接需遵循https协议，即链接需用https开头，地址和revision之间需用“:”分割。
* 代码示例：

```
def init(params: dict):
    # 进行初始化工作，可以返回一个函数或None
    return None

def run(data: dict, func=None) -> bool:
    # 执行判断操作，data传入的是一个数据集文件相关的数据，func时init返回的函数
    # 如果通过筛选返回True，否则返回False
    return True

def teardown():
    # 执行清理工作，没有返回值
    pass
```

![](https://1609727380-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-MGHaHpCAkpKvpxq5ZJn%2F-Mi5dQ5yxbxXUOKDwTHy%2F-Mi5oMqijVwrw4ONi1Oi%2F0b6668837cf1f394e67a846312d7d3a.png?alt=media\&token=7b73b026-5c66-402b-82f6-23662e4a8d41)

* 结束高级筛选之后，结果会自动录入【筛选记录】中。\
  \ <br>
