数据挖掘
基于TensorBay Action平台,本示例将搭建一个整合数据爬取、数据转化、数据提取和数据分析四步骤的工作流,帮助您快速了解格物钛数据平台
最后更新于
这有帮助吗?
基于TensorBay Action平台,本示例将搭建一个整合数据爬取、数据转化、数据提取和数据分析四步骤的工作流,帮助您快速了解格物钛数据平台
最后更新于
这有帮助吗?
这有帮助吗?
# 一个workflow由多个task构成,它们可以串行或并行运行.
tasks:
# 本workflow包括四个task,分别为:scraper,pdf2txt,parser,statistics
scraper:
container:
# 本task运行所依赖性的镜像名, 支持公开及私有的镜像仓库
image: hub.graviti.cn/miner/scraper:2.3
# 镜像运行后执行`./archive/run.py {{workflow.parameters.month}}`这条命令
command: [python3]
args: ["./archive/run.py", "{{workflow.parameters.month}}"]
pdf2txt:
# pdf2txt依赖于scraper,即仅在scraper运行结束后才开始运行
dependencies:
- scraper
container:
image: hub.graviti.cn/miner/pdf2txt:2.0
command: [python3]
args: ["pdf2txt.py"]
parser:
# parser依赖于pdf2txt,即仅在pdf2txt运行结束后才开始运行
dependencies:
- pdf2txt
container:
image: hub.graviti.cn/miner/parser:2.0
command: [python3]
args: ["parser.py"]
statistics:
# statistics依赖于parser, 即仅在parser运行结束后才开始运行
dependencies:
- parser
container:
image: hub.graviti.cn/miner/statistics:2.0
command: [python3]
args: ["statistics.py"]