1
(资料图)
引 言
过去两年,检索增强生成(RAG)已成为企业应用大模型的标准范式。
通过“文档切块-向量化-语义检索-上下文生成”的流程,大模型的确获得了初步的“记忆力”。然而,当企业面对更复杂、更专业的真实知识挑战时,这一范式的局限便显露无遗:
面对跨部门制度、多份长文档的关联推理时,它难以串联散落的证据;
面对专业术语、层级概念、历史沿革时,它无法厘清语义间的深层关联;
面对数十万字的企业规章、技术手册、年度报告时,它往往陷入检索失准与上下文混乱的困境。
本质上,传统RAG是在用“文本相似性”来解决“知识关联性”的问题——这就像试图用关键词匹配来理解一整张知识图谱,其天花板清晰可见。
2
从“大海捞针”到“按图索骥”
我们之所以投入LGM(语言图模型)的研究,正是因为我们认识到:企业真正需要的不是更长的上下文,而是更深的“理解力”。
当下的主流路径,是不断扩展模型的“记忆长度”,希望将更多文本装入上下文窗口。但我们认为,更根本的解决之道,在于升级模型的“认知单位”——从处理离散的“文本片段”,转向理解结构化的“概念网络”。
LGM代表了一种范式转变:
从“匹配片段”到“关联概念”:系统首先理解知识体系中概念的定义、属性与关系,形成轻量化的语义骨架。
从“盲目检索”到“定向推理”:基于概念网络进行多跳推理,精准定位相关证据,再动态组装出逻辑连贯的答案。
从“堆叠文本”到“结构化调用”:化繁为简,只提取必要的证据句子,极大降低模型处理负担与信息干扰。
这意味着,企业可以将庞杂的非结构化文档(制度、手册、报告、邮件)转化为一张可推理、可追溯的动态知识图谱,让大模型真正像一位资深专家那样“理解业务”,而非仅仅“复述文本”。
3
深入内核:一张“概念网络”的诞生
LGM把世界知识抽象为三类元关系:
继承(父子类/上位—下位)
组成(部分—整体)
别名(同名/简称/多语言)
当问题包含别名、上位或组成元素时,系统顺着关系网去补齐证据,不必在原文中死盯同一句描述,从而更稳定地完成推理。
两张图:
语法关系图(SRG):保存原句、指代消解、依存关系,可回溯“证据原句”。
概念关系图(CRG):保存继承/组成/别名等元关系,支撑概念级扩展与精准检索。
图1:语法关系图和概念关系图
两阶段:
Learning:从文档自动抽取概念与关系;可选“反思(reflection)”机制过滤错误关系。
概念迭代检索:从问题抽取概念 → 沿CRG扩展父/子/组成/别名 → 回SRG取原句 → 分块并行抽取 → 迭代压缩合并;若证据不足,继续补概念形成闭环。
图2:整体工作流
图3:概念迭代图
4
研究成果
再HotpotQA和Musique数据集上超越了微软和因特等RAG。
飞利信(300287)基于自研的语言图模型(LGM),开发了利智方平台及各类智能体产品。目前,我们正致力于将这些前沿技术产品与公司的核心业务场景紧密结合,逐步推进人工智能的场景化落地。