数据预处理组件、标注技术选型

1.数据预处理

选择:

1.基于langflow,增加处理组件

优势:熟悉易上手(前端和后端)。知识平台的流程继续沉淀。

劣势:1.缺少任务调度(需要额外搭配xxl-job配合langflow的webhook进行任务调度)
2.并行分支无法真正意义上的并发执行,单个任务无法最大化利用资源,需要对框架进行改造
3.没有资源(cpu,内存)管理能力

2.其他开源选择(待补充)

Apache Airflow 是一个工作流编排和调度平台,主要用于:

  • 定义、调度和监控复杂的数据管道
  • 管理任务之间的依赖关系
  • 批处理作业的编排

airflow 10.0.53.19:8080 admin mBw4PcECXd8cek5r

中文文档:ETL/ELT | Apache Airflow - Airflow 工作流管理平台

rest api :Airflow REST API - Airflow 工作流管理平台

后端在指定目录(配置文件中指定目录 /root/airflow/dags )放py脚本,可以在linux用这个命令查看我们上传的py脚本,airflow dags list | grep /root/airflow/dags

前端网页中也能显示这个dag

点击某个dag进去,可以看到这个dag中的流程图

点击流程图中的某个节点可以查看详细的执行日志

这个流程图是根据py脚本的内容自动生成的,没法改动的,跟langflow那种拖拖拽拽不是一回事。适合运维,DBA,程序员使用

前端可以用http请求触发这个dag

2.标注

Label Studio 在线地址HumanSignal http://localhost:8080/ 33环境

和langchain结合。Label Studio | LangChain中文网

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值