# 利用数据集筛选快速新建

在TensorBay中，您可以在已创建的数据集列表中通过筛选现有的数据，快速创建新的数据集，该操作将不会重复复制数据，无需担心数据量，操作快捷，节约大量存储成本。您在筛选操作中也可以通过可视化组件在线查看数据详情，标签分布等数据信息。

* 在TensorBay数据集列表页，在创建数据集的下拉框中选取【Create by filter】，选择您需要筛选的数据集。
* 代码示例：

```
def init(params: dict):
    # 进行初始化工作，可以返回一个函数或None
    return None

def run(data: dict, func=None) -> bool:
    # 执行判断操作，data传入的是一个数据集文件相关的数据，func时init返回的函数
    # 如果通过筛选返回True，否则返回False
    return True

def teardown():
    # 执行清理工作，没有返回值
    pass
```

![](/files/-MWcQ0t8c8CmCDHCToOo)

## 输入筛选条件

在数据信息筛选条件框中，你可以根据筛选数据需求填写【数据名称】。也支持在【Segment 列表】中单选和多选segment。如果您需要的筛选数据集类型为融合数据集，可以选择有无数据标注的选项。根据此选项，可以在【标注信息条件筛选】框中进行进一步的标注信息筛选。

![](https://lh5.googleusercontent.com/2RGuBbLpB-NIO4Ms_nlG9v4qcdEV_489zkZywXZ7gRj-qoL-izi3gLcaQ-JPFWhBM288-1VACbjjtUjRDofvKVo7MU9Ixa64ys0WuvhzxdqfgtlFnNa7V2PoLVaC26yQUBXMLksD)

* 点击请选择，选择需要搜索的基本信息，目前Box2D基础信息包括：Segment，数据名称，数据大小和是否包含标注。 点击添加【搜索条件】，添加其他搜索条件；点击搜索条件右上角，删除搜索条件。

![](https://lh4.googleusercontent.com/lYK-bOB0ZYyaLXiddu3e_XCS_D7ZmQosVM1NajLrP5TEMm1kMX9QFCnNvLy5-DBspcgRy5q5SPpujRwlhbg4HbEIPS4ficcz7tk3KEkPgRmN1hoFfVzL92E0lnAdL7mAruHsAXWE)

## 查看搜索记录

### 查看记录首页

* 点击【搜索记录】，您可以查看过去您使用过的搜索记录的状态。

【未保存】：首次搜索，此时搜索结果未保存，不能新建数据集。&#x20;

【保存进度】：选中搜索结果，点击保存后，开始对搜索结果进行保存。&#x20;

【已保存】：第二次搜索，此时结果全量展示并保存，可以用此结果新建数据集。

![](https://lh3.googleusercontent.com/oaLKrCYw6N3X42Kct2ep5Cr5j4aMq0DO_atlvC5YD1JDpr-SgljDI9Rdpo5Ir5AGuYEzz77O9MZCxOSISRX9MlnFAECCOmUhlIpzikmzspKZS1f9_js9W6vwCGfKHcExHl8sxniQ)

### 选中搜索记录

* 【未保存】记录：选中未保存的搜索记录，您可以在搜索栏查看搜索条件，在数据列表页查看文件数量及大小并预览100条搜索结果。

![](https://lh3.googleusercontent.com/VpEeN1HWKA5QDmdXNYq1bsLU7v9HRQ7uCHXXEca6DhM_rtoivjNEXjZyAi5HH8kmzJh4Um2-DYZElV1HegHTTehScjrv3HP1Ew4t09FEdqVpei8HMjrzjGkLuYeH9kC4e9WeR2C1)

* 【已保存】记录：选中已保存的搜索记录，您可以在搜索栏查看搜索条件，在数据列表页查看文件数量及大小并查看全量搜索结果。

![](https://lh4.googleusercontent.com/vJtj2OkkOrSba-mIO434TnpOqcUjbfSd8sgT6cJbg1aLo53IqWYzPp7IU2Dg7QvgdGR0SKa7vPflNJlHt9-ORItdVJk8LgFws4wWuItLIWjfbW-v9dQ9bXQmxqNIWHpE0z8QwWn6)

## 使用标签筛选数据 <a href="#id-1" id="id-1"></a>

* 选择某个需要筛选的数据集后，将进入【数据列表】界面，您可以在左侧下拉框中选择您需要数据管理的版本。

![](https://lh6.googleusercontent.com/3-CdZkKzLZER3J9pneTJvUHyHHp9xfGKPuDt02ET3jS3GJSezaoGSkelTQlLB_rVWgcZ5R6UOWj0gIN8jRmQk2-Gw0XysdGEu6yjFW4yhHnKC9iII72cGBySqSX0PxpDj1AkhINc)

* 确定需要管理的版本后，您可以筛选该数据集的Segment，标注类型以及标注标签，得到数据集中符合筛选条件的数据，筛选后的数据将更新在右侧的数据列表中。

![](/files/-Mi5jSFs9aB1AJgpCgnb)

## 查看数据详情 <a href="#id-2" id="id-2"></a>

* 在【数据列表】页，您也可以通过右侧可视化中在线预览数据及查看具体的标注情况，使用详情请参考[可视化插件指南](/guide/tensorbay/visualization/visualization-widgets.md)。

![](https://lh6.googleusercontent.com/syfwphjWyfokrmnxArOaKiFym5js3UGoNaCYi0n68mYlFT_sRKTXBb4i4p4AHxn5_pYs1gomz8sx0kIGCmBbaLFcRGu1KAGRfphxC8GwDSZQ2irZKEd-_nPhzvoXoQinRkfyEkDT)

{% content-ref url="/pages/-MWU48zXlRgfjJ5o6rWo" %}
[Pharos 使用指南](/guide/tensorbay/visualization/visualization-widgets.md)
{% endcontent-ref %}

## 查看标签分布 <a href="#id-3" id="id-3"></a>

* 在【数据列表】页，您也可以在【查看模式】的下拉框中选择【统计指标】来查看各标注类型、标注标签的分布情况。

![](https://lh6.googleusercontent.com/klgZGjKFrCjB7EWT6haEwam8ruWUlAkErs5XoXAhctwCQzfKLAyza5nCeXDgxOlOBv63ApFWyXxWOhEdgfe_hL6NI1INCnc9fGUiy8jTmqA-cupB5i0y-UTtT0Lz1E6WD8LXV5xw)

## 通过搜索快速新建数据集 <a href="#id-4" id="id-4"></a>

* 初次数据筛选完成后，搜索记录为【未保存】状态，此时您可以，在数据列表页查看文件数量及大小并预览100条搜索结果。

![](https://lh3.googleusercontent.com/ayQXbfNTGfH7_mZabhGYh7Xq4z7nx0wRzImZ8EKqw30NE-tI_9LX2NXAwoAOCgl5UnXEXphLhwI-jKrbM7ywIiSqpGtLQDTb_qjyPj679b4-Dl64PSiNioUOWCn3yxa-SPOlawhT)

* 如果您希望用此搜索结果新建数据集，请先对搜索结果进行保存，已保存的搜索结果新建数据集。 选中您需要保存的搜索记录，点击【保存】按钮，对搜索结果进行保存。

![](https://lh4.googleusercontent.com/f7ttMovfC0EmzpN_Tb0qbANQ3NvYNAlS9bgJ6JAalTFx4-QfM6DLisVkWo-bK2MHeKEJHX1G1brW6i32MUfcbHOVpULLTZ607fIdvaa8_CcFyakUDLg7DqC4qu6yyfEmrpwVzDHY)

* 保存完成后，搜索记录状态变更为已保存。选择【用此结果新建数据集】。

![](https://lh3.googleusercontent.com/bPfsCl3GYUrvEH8u9MMG3tzPRM9Y_dMDEzH_lVXKvnLXAlk1VK_S-j_mX1E1Doilij2g5lr8V8rZCISQhvpiQKyLBCXfe4xiLpM5VWCVnIEiqKNwyEVffbmNPXVspXBCrdo_dKHp)

* 填写数据集名称并设置可见范围（公开或者私有）后，选择【确认创建】完成数据集创建。注：您可以在此界面看到已选数据和数据来源。

![](/files/-Mi5mj3fbFvg-z_S2ESU)

* 数据集创建完成后，将转跳至新创建的数据集的详情页，可查看通过筛选创建的数据集。

## **高级搜索**

除了可以使用基础筛选条件（segment名称、标注类型和有无标注）以外，融合数据集和普通数据集支持自定义高级搜索功能。您可以通过制定GitHub URL的方式获取文件，并以该文件作为筛选方法，对数据进行筛选。

* 在数据集详情页中，点击【管理数据】，进入【数据列表】页面。

![](/files/-MiL2H_SRyFEADH2nIYB)

* 点击左上角【搜索】，再点击【高级搜索】选项
* 左下角会显示【高级搜索GitHub Repo Link】窗口。将您需要上传的文件链接复制入弹窗中，并点击【搜索】执行筛选。\
  注：填写链接需遵循https协议，即链接需用https开头，地址和revision之间需用“:”分割。
* 代码示例：

```
def init(params: dict):
    # 进行初始化工作，可以返回一个函数或None
    return None

def run(data: dict, func=None) -> bool:
    # 执行判断操作，data传入的是一个数据集文件相关的数据，func时init返回的函数
    # 如果通过筛选返回True，否则返回False
    return True

def teardown():
    # 执行清理工作，没有返回值
    pass
```

![](/files/-Mi5oMqijVwrw4ONi1Oi)

* 结束高级筛选之后，结果会自动录入【筛选记录】中。\
  \ <br>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.graviti.cn/guide/tensorbay/data/filter.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
