首页- 行业- 详情

LGM:用“语言图”为大模型装上一副「概念眼镜」 前沿热点

2025-12-12 10:24:30 来源:飞利信官微

1


(资料图)

引 言

过去两年,检索增强生成(RAG)已成为企业应用大模型的标准范式。

通过“文档切块-向量化-语义检索-上下文生成”的流程,大模型的确获得了初步的“记忆力”。然而,当企业面对更复杂、更专业的真实知识挑战时,这一范式的局限便显露无遗:

面对跨部门制度、多份长文档的关联推理时,它难以串联散落的证据;

面对专业术语、层级概念、历史沿革时,它无法厘清语义间的深层关联;

面对数十万字的企业规章、技术手册、年度报告时,它往往陷入检索失准与上下文混乱的困境。

本质上,传统RAG是在用“文本相似性”来解决“知识关联性”的问题——这就像试图用关键词匹配来理解一整张知识图谱,其天花板清晰可见。

2

从“大海捞针”到“按图索骥”

我们之所以投入LGM(语言图模型)的研究,正是因为我们认识到:企业真正需要的不是更长的上下文,而是更深的“理解力”。

当下的主流路径,是不断扩展模型的“记忆长度”,希望将更多文本装入上下文窗口。但我们认为,更根本的解决之道,在于升级模型的“认知单位”——从处理离散的“文本片段”,转向理解结构化的“概念网络”。

LGM代表了一种范式转变:

从“匹配片段”到“关联概念”:系统首先理解知识体系中概念的定义、属性与关系,形成轻量化的语义骨架。

从“盲目检索”到“定向推理”:基于概念网络进行多跳推理,精准定位相关证据,再动态组装出逻辑连贯的答案。

从“堆叠文本”到“结构化调用”:化繁为简,只提取必要的证据句子,极大降低模型处理负担与信息干扰。

这意味着,企业可以将庞杂的非结构化文档(制度、手册、报告、邮件)转化为一张可推理、可追溯的动态知识图谱,让大模型真正像一位资深专家那样“理解业务”,而非仅仅“复述文本”。

3

深入内核:一张“概念网络”的诞生

LGM把世界知识抽象为三类元关系:

继承(父子类/上位—下位)

组成(部分—整体)

别名(同名/简称/多语言)

当问题包含别名、上位或组成元素时,系统顺着关系网去补齐证据,不必在原文中死盯同一句描述,从而更稳定地完成推理。

两张图:

语法关系图(SRG):保存原句、指代消解、依存关系,可回溯“证据原句”。

概念关系图(CRG):保存继承/组成/别名等元关系,支撑概念级扩展与精准检索。

图1:语法关系图和概念关系图

两阶段:

Learning:从文档自动抽取概念与关系;可选“反思(reflection)”机制过滤错误关系。

概念迭代检索:从问题抽取概念 → 沿CRG扩展父/子/组成/别名 → 回SRG取原句 → 分块并行抽取 → 迭代压缩合并;若证据不足,继续补概念形成闭环。

图2:整体工作流

图3:概念迭代图

4

研究成果

再HotpotQA和Musique数据集上超越了微软和因特等RAG。

飞利信(300287)基于自研的语言图模型(LGM),开发了利智方平台及各类智能体产品。目前,我们正致力于将这些前沿技术产品与公司的核心业务场景紧密结合,逐步推进人工智能的场景化落地。

标签: 财经频道 财经资讯

上一篇:前沿资讯!姆巴佩伤缺无缘对决哈兰德 皇马主场不敌曼城
下一篇:最后一页