帮助文档
  • 帮助文档
  • 注册账号
    • 个人设置
    • 团队设置
  • 开发者文档
    • 开发者工具
      • Python SDK
      • CLI
      • Open API
        • Dataset Operation
        • Data Operation
      • 示例演示
        • 模型训练
        • 数据挖掘
  • 产品使用文档
    • TensorBay
      • TensorBay 适用于算法研究的各个阶段
      • 概念说明
      • 快速入门 - 开发者版
      • 快速入门 - 团队版
      • 数据集准备
        • 新建数据集
        • 管理云服务上的数据
          • 阿里云oss用户授权RAM
        • 利用数据集筛选快速新建
        • 数据合并拆分及复制移动
        • 通过Fork使用公开数据集
      • 数据版本管理
        • 管理数据文件
        • 管理标注数据
        • 管理数据集信息
        • 管理版本信息
        • 管理数据集分支
        • 数据集活动
        • 数据集设置
      • Pharos 数据可视化
        • 获取 Pharos
        • Pharos 使用指南
      • 团队协作
        • 创建团队空间
        • 资料/成员管理
        • 数据集管理
        • 团队活动日志
      • Action 流程自动化
        • 新建工作流
        • 运行工作流
        • 管理工作流
        • YAML语法说明
        • Crontab语法说明
        • 自动化配置
      • 如何与Pipeline集成
    • Open Datasets
      • 数据集概念
      • 查找公开数据集
      • 在线预览数据及标签分布
      • 在线使用并管理数据集
      • 下载公开数据集
      • 找不到想要的数据集?
  • APPs
    • GroundTruth Tools
      • 图片标注
      • 语音分类
    • TeraGood Service
      • 需求方使用手册
      • 运营方使用手册
      • 标注方使用手册
    • Sextant
      • 新建评估
      • 自定义Metrics
      • 参与评估
      • 查看评估结果
  • 更新日志
  • 格物钛官网
由 GitBook 提供支持
在本页

这有帮助吗?

  1. 开发者文档
  2. 开发者工具
  3. 示例演示

数据挖掘

基于TensorBay Action平台,本示例将搭建一个整合数据爬取、数据转化、数据提取和数据分析四步骤的工作流,帮助您快速了解格物钛数据平台

上一页模型训练下一页TensorBay

最后更新于3年前

这有帮助吗?

1.新建数据集

a. 进入TensorBay,在个人或团队账户下,点击【新建数据集】

2.配置密钥

a. 点击导航栏中的【开发者工具】,点击【新建AccessKey】并复制accesskey

b. 在新建数据集界面,点击【设置】->【自动化配置】->【新建密钥】

c. 新建密钥,密钥名为accesskey, 密钥值为a步骤复制的accesskey

3.创建工作流

a. 在新建数据集详情页,点击【自动化】->【新建工作流】

b. 填写工作流名称(注: Workflow名称只能包含小写字母、数字以及减号,名称不得少于2位字符且首位不能为减号。)

c. 选择工作流触发机制【Trigger】(默认manual)

d. 设置工作流参数【Parameters】(注:本次示例参数来源于镜像设置的命令行参数,用以调整爬取论文的月份,默认为1。)

e. 选择实例配置【Instance】

f. 复制下列内容建立YAML文件

# 一个workflow由多个task构成,它们可以串行或并行运行.
tasks:
  # 本workflow包括四个task,分别为:scraper,pdf2txt,parser,statistics
  scraper:
    container:
         # 本task运行所依赖性的镜像名, 支持公开及私有的镜像仓库
      image: hub.graviti.cn/miner/scraper:2.3

      # 镜像运行后执行`./archive/run.py {{workflow.parameters.month}}`这条命令
      command: [python3]
      args: ["./archive/run.py", "{{workflow.parameters.month}}"]
  pdf2txt:
    # pdf2txt依赖于scraper,即仅在scraper运行结束后才开始运行
    dependencies:
      - scraper
    container:
      image: hub.graviti.cn/miner/pdf2txt:2.0
      command: [python3]
      args: ["pdf2txt.py"]
  parser:
    # parser依赖于pdf2txt,即仅在pdf2txt运行结束后才开始运行
    dependencies:
      - pdf2txt
    container:
      image: hub.graviti.cn/miner/parser:2.0
      command: [python3]
      args: ["parser.py"]
  statistics:
    # statistics依赖于parser, 即仅在parser运行结束后才开始运行
    dependencies:
      - parser
    container:
      image: hub.graviti.cn/miner/statistics:2.0
      command: [python3]
      args: ["statistics.py"]

g. 点击【发布】后并点击【确定】

4.运行工作流

a. 点击【自动化】,回到工作流界面。选择刚创建好的工作流并点击【运行工作流】

b. 调整参数,比如将month对应参数调整成10(月份),并点击【运行】

5.查看结果

a. 在工作流详情页,点击【用户日志】查看工作流运行日志

b. 在数据集详情页,点击【概要】->【数据预览】查看统计结果