在知识图谱完成的因为如果

rifat77 · Post by **rifat77** » Sun Dec 22, 2024 5:48 am

这个过程是通过NLP解析用户自然语言的问题转换为SQL然后通过SQL在对应的指标图谱中通过多维指标的数据关系进行指标汇总最后返回给用户数据结果。查询过程：用户自然语言查询→NLP→SQL→查询指标图谱→数据聚合→图表和数据返回这里面NLP其实核心是在做分词把时间、维度和指标名解析出来因为在查询时是基于指标模型（时间周期+修饰词+原子指标）进行的所以只要有查询的指标结构就可以做到。NLP解析出来后生成的SQL更多的是在做简单查询假设用户要查询「今日杭州新注册用户数」的话对于SQL来讲就是直接查询这个指标（slt ‘杭州新注册用户数’ whr y=‘今天日期’）但其实这个指标是通过知识图谱（指标图谱）的图关系把「今日」、「杭州」和「新注册用户数」这几个实体和关系的数据进行聚合。

所以复杂关系的指标数据聚合其实印度号码查询是时候技术并不成熟当然对于今天的大模型来说生成复杂的SQL语言是小菜一碟。去年也就是年初大模型火热的时候我就在思考这个问题如果通过大模型来实现是否可行这取决于大模型的NLQ能力——对指标与分析相关的自然语言的理解以及转化为SQL的准确性。因为如果通过大模型的方式来实现的话取代的是“NLP→SQL→查询指标图谱”这个流程环节同时也就不需要构建复杂的知识图谱了只需要像数仓中间层正常构建多维的指标数据宽表就够了因为派生指标的聚合其实是在大模型中生成的复杂查询SQL。

令人兴奋的是大模型的编程语言能力比想象的更强。一、利用大模型的方式首先在大模型中设置提示词（Prompt）：声明数据表结构（表元数据信息）→声明查询方式→生成SQL 完整机器人交互查询过程：用户IM自然语言查询→大模型NLQ→查询指标模型表→图表和数据返回（这个过程和前面的对比你会发现大模型取代了「NLP分词」、「SQL生成」和「知识图谱构建」这几个很复杂的环节。）因为我们整个数据指标核心还是依托指标模型（时间周期+修饰词+原子指标）所以在提示词声明表的元数据信息以及查询方式时可以把表相应的字段约束一下比如——“时间”是哪个字段基于时间聚合的话方式是怎样的（时间已经按照时间周期标签化了比如：近天、近7天。