数据挖掘

基于TensorBay Action平台，本示例将搭建一个整合数据爬取、数据转化、数据提取和数据分析四步骤的工作流，帮助您快速了解格物钛数据平台

1.新建数据集

a. 进入TensorBay，在个人或团队账户下，点击【新建数据集】

2.配置密钥

a. 点击导航栏中的【开发者工具】，点击【新建AccessKey】并复制accesskey

b. 在新建数据集界面，点击【设置】->【自动化配置】->【新建密钥】

c. 新建密钥，密钥名为accesskey, 密钥值为a步骤复制的accesskey

3.创建工作流

a. 在新建数据集详情页，点击【自动化】->【新建工作流】

b. 填写工作流名称（注： Workflow名称只能包含小写字母、数字以及减号，名称不得少于2位字符且首位不能为减号。）

c. 选择工作流触发机制【Trigger】（默认manual）

d. 设置工作流参数【Parameters】（注：本次示例参数来源于镜像设置的命令行参数，用以调整爬取论文的月份，默认为1。）

e. 选择实例配置【Instance】

f. 复制下列内容建立YAML文件

# 一个workflow由多个task构成，它们可以串行或并行运行.
tasks:
  # 本workflow包括四个task，分别为：scraper,pdf2txt,parser,statistics
  scraper:
    container:
         # 本task运行所依赖性的镜像名, 支持公开及私有的镜像仓库
      image: hub.graviti.cn/miner/scraper:2.3

      # 镜像运行后执行`./archive/run.py {{workflow.parameters.month}}`这条命令
      command: [python3]
      args: ["./archive/run.py", "{{workflow.parameters.month}}"]
  pdf2txt:
    # pdf2txt依赖于scraper，即仅在scraper运行结束后才开始运行
    dependencies:
      - scraper
    container:
      image: hub.graviti.cn/miner/pdf2txt:2.0
      command: [python3]
      args: ["pdf2txt.py"]
  parser:
    # parser依赖于pdf2txt，即仅在pdf2txt运行结束后才开始运行
    dependencies:
      - pdf2txt
    container:
      image: hub.graviti.cn/miner/parser:2.0
      command: [python3]
      args: ["parser.py"]
  statistics:
    # statistics依赖于parser, 即仅在parser运行结束后才开始运行
    dependencies:
      - parser
    container:
      image: hub.graviti.cn/miner/statistics:2.0
      command: [python3]
      args: ["statistics.py"]