- 软件简介
- 相关软件
- 猜你喜欢
- 相关教程
- 下载地址
PiFlow 是一款简单易用、功能全面的互联网大数据流水线系统软件,它结合了复合型科学研究的大数据流水线系统软件的特点,拥有丰富的CPU组件,支持Shell、DSL、Web配置页面、线程同步、任务监控等功能!
软件亮点
简单易用
数据可视化
配置流水线
监控流水线
查询流水线
流水线日志控制点功能
扩展性强:支持自定义开发数据处理组件
使用性能:基于分布式计算模块Spark开发
功能齐全:提供100多个数据处理组件,包括Hadoop、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等,并集成生物信息行业的优化算法
如何使用
下载与安装
首先您需要下载PiFlow软件包 piflow-server-v0.9.tar.gz
,然后解压到您的服务器上。
tar -zxvf piflow-server-v0.9.tar.gz
接下来配置环境变量 config.properties
,并设置PiFlow Server的运行、停止、重启等脚本。
export PIFLOW_HOME=/yourPiflowPath/bin
export PATH=$PATH:$PIFLOW_HOME/bin
启动PiFlow Server
使用以下脚本启动PiFlow Server:
start.sh
停止PiFlow Server
使用以下脚本停止PiFlow Server:
stop.sh
重启PiFlow Server
使用以下脚本重启PiFlow Server:
restart.sh
检查PiFlow Server状态
使用以下脚本检查PiFlow Server状态:
status.sh
配置config.properties
您需要配置以下参数:
# Spark and Yarn config
spark.master=yarn
spark.deploy.mode=cluster
# HDFS default file system
fs.defaultFS=hdfs://10.0.86.191:9000
# Yarn ResourceManager hostname
yarn.resourcemanager.hostname=10.0.86.191
# If you want to use Hive, set Hive metastore uris
hive.metastore.uris=thrift://10.0.88.71:9083
# Show data in log, set 0 if you do not want to show data in logs
data.show=10
# Server port
server.port=8002
# H2DB port
h2.port=50002
运行流水线
您可以使用以下命令运行流水线:
piflow flow start example/mockDataFlow.json
停止流水线
您可以使用以下命令停止流水线:
piflow flow stop appID
获取流水线信息
您可以使用以下命令获取流水线信息:
piflow flow info appID
获取流水线日志
您可以使用以下命令获取流水线日志:
piflow flow log appID
运行流水线组
您可以使用以下命令运行流水线组:
piflow flowGroup start example/mockDataGroup.json
停止流水线组
您可以使用以下命令停止流水线组:
piflow flowGroup stop groupId
获取流水线组信息
您可以使用以下命令获取流水线组信息:
piflow flowGroup info groupId