作者:范志东
使用SQL(Structured Query Language)对数据库/数据仓库进行查询分析操作,几乎成了研发工程师和数据分析师的“家常便饭”,然而要写出高效、清晰、优雅的SQL脚本并非易事。随着大语言模型(LLM)技术的普及,借助大模型微调(Fine Tuning)等技术将自然语言自动翻译为SQL语句(NL2SQL/Text2SQL)便成了非常流行的解决方案,相关的工具框架(Chat2DB、DB-GPT等)也是层出不穷。
同样的,在图数据库领域也存在相似的问题,甚至更为严峻。相比于SQL相对成熟的语法标准(SQL2023),图查询语言尚未形成成熟的统一标准,目前是多种查询语法并存的状态(GQL、PGQ、Cypher、Gremlin、GSQL等),上手门槛高,因此更需要借助大语言模型的自然语言理解能力,降低图数据库查询语言的使用门槛。
1. 图表融合:SQL+GQL
TuGraph计算引擎TuGraph Analytics创新性地设计了SQL+GQL融合语法,以解决图表混合分析场景的业务诉求,将图上的分析计算能力有机地融合到传统的SQL数据处理链路内,实现了图引擎上一体化的图数据建模、图数据集成、图存储、图交互式分析能力。
TuGraph Analytics的SQL+GQL融合语法典型形式为**“SELECT-FROM-WITH-MATCH-RETURN”**结构,通过GQL语法的“MATCH-RETURN”语法单元,为SQL处理提供数据子视图,方便传统数据分析师对数据的进一步处理。
通过以上的语法设计,可以满足多样化的图表融合处理的诉求。点边数据源提供构图数据,Request数据源提供图计算触发的起点集合。
不同的数据源处理模式的组合,形成了多种“流”与“图”的混合计算形态。而SQL+GQL的融合语法设计,可以很好地表达多样化的计算模式。
2. 与图对话:ChatTuGraph
我们不否认SQL+GQL融合语法是一个创见性的语言设计,但这并不能解决“新型图查询语言的高上手门槛”这个通病,因此,借助于LLM微调实现专有的图查询语言模型,通过自然语言的方式与图数据交互,实现“与图对话(Chat-to-Graph/Chat-TuGraph)”。
我们初步构想了面向未来的图数据库智能化能力,至少具备以下产品形态:
- 智能交互分析:通过Agent发送图查询指令,同步获取图数据结果。
- 智能数据变更:通过Agent发送图变更指令,修改图数据,获取修改状态(成功与否、影响