LGM：用“语言图”为大模型装上一副「概念眼镜」前沿热点

2025-12-12 10:24:30 来源：飞利信官微

(资料图)

引言

过去两年，检索增强生成（RAG）已成为企业应用大模型的标准范式。

通过“文档切块-向量化-语义检索-上下文生成”的流程，大模型的确获得了初步的“记忆力”。然而，当企业面对更复杂、更专业的真实知识挑战时，这一范式的局限便显露无遗：

面对跨部门制度、多份长文档的关联推理时，它难以串联散落的证据；

面对专业术语、层级概念、历史沿革时，它无法厘清语义间的深层关联；

面对数十万字的企业规章、技术手册、年度报告时，它往往陷入检索失准与上下文混乱的困境。

本质上，传统RAG是在用“文本相似性”来解决“知识关联性”的问题——这就像试图用关键词匹配来理解一整张知识图谱，其天花板清晰可见。

从“大海捞针”到“按图索骥”

我们之所以投入LGM（语言图模型）的研究，正是因为我们认识到：企业真正需要的不是更长的上下文，而是更深的“理解力”。

当下的主流路径，是不断扩展模型的“记忆长度”，希望将更多文本装入上下文窗口。但我们认为，更根本的解决之道，在于升级模型的“认知单位”——从处理离散的“文本片段”，转向理解结构化的“概念网络”。

LGM代表了一种范式转变：

从“匹配片段”到“关联概念”：系统首先理解知识体系中概念的定义、属性与关系，形成轻量化的语义骨架。

从“盲目检索”到“定向推理”：基于概念网络进行多跳推理，精准定位相关证据，再动态组装出逻辑连贯的答案。

从“堆叠文本”到“结构化调用”：化繁为简，只提取必要的证据句子，极大降低模型处理负担与信息干扰。

这意味着，企业可以将庞杂的非结构化文档（制度、手册、报告、邮件）转化为一张可推理、可追溯的动态知识图谱，让大模型真正像一位资深专家那样“理解业务”，而非仅仅“复述文本”。

深入内核：一张“概念网络”的诞生

LGM把世界知识抽象为三类元关系：

继承（父子类/上位—下位）

组成（部分—整体）

别名（同名/简称/多语言）

当问题包含别名、上位或组成元素时，系统顺着关系网去补齐证据，不必在原文中死盯同一句描述，从而更稳定地完成推理。

两张图：

语法关系图（SRG）：保存原句、指代消解、依存关系，可回溯“证据原句”。

概念关系图（CRG）：保存继承/组成/别名等元关系，支撑概念级扩展与精准检索。

图1：语法关系图和概念关系图

两阶段：

Learning：从文档自动抽取概念与关系；可选“反思（reflection）”机制过滤错误关系。

概念迭代检索：从问题抽取概念 → 沿CRG扩展父/子/组成/别名 → 回SRG取原句 → 分块并行抽取 → 迭代压缩合并；若证据不足，继续补概念形成闭环。

图2：整体工作流

图3：概念迭代图

研究成果

再HotpotQA和Musique数据集上超越了微软和因特等RAG。

飞利信（300287）基于自研的语言图模型（LGM），开发了利智方平台及各类智能体产品。目前，我们正致力于将这些前沿技术产品与公司的核心业务场景紧密结合，逐步推进人工智能的场景化落地。

标签：财经频道财经资讯

科技

我国高水平国际期刊论文数量及被引次数保持世界第一

2025-10-31

30日，中国科学技术信息研究所在京发布《2025年中国科技论文统计报告》(以下简称报告)。报告显示，我国各学科最具影响力期刊论文数量、高水

财经