1.数据预处理
选择:
1.基于langflow,增加处理组件
优势:熟悉易上手(前端和后端)。知识平台的流程继续沉淀。
劣势:1.缺少任务调度(需要额外搭配xxl-job配合langflow的webhook进行任务调度)
2.并行分支无法真正意义上的并发执行,单个任务无法最大化利用资源,需要对框架进行改造
3.没有资源(cpu,内存)管理能力
2.其他开源选择(待补充)
Apache Airflow 是一个工作流编排和调度平台,主要用于:
- 定义、调度和监控复杂的数据管道
- 管理任务之间的依赖关系
- 批处理作业的编排
airflow 10.0.53.19:8080 admin mBw4PcECXd8cek5r
中文文档:ETL/ELT | Apache Airflow - Airflow 工作流管理平台
rest api :Airflow REST API - Airflow 工作流管理平台
后端在指定目录(配置文件中指定目录 /root/airflow/dags )放py脚本,可以在linux用这个命令查看我们上传的py脚本,airflow dags list | grep /root/airflow/dags
前端网页中也能显示这个dag
点击某个dag进去,可以看到这个dag中的流程图
点击流程图中的某个节点可以查看详细的执行日志
这个流程图是根据py脚本的内容自动生成的,没法改动的,跟langflow那种拖拖拽拽不是一回事。适合运维,DBA,程序员使用
前端可以用http请求触发这个dag
2.标注
Label Studio 在线地址HumanSignal http://localhost:8080/ 33环境
和langchain结合。Label Studio | LangChain中文网