新闻中心 >> 公司新闻 >>

上下文长度对大模型意味着什么？一文看懂

2025-09-04 14:00:13

【导语】近日，DeepSeek官方宣布发布新一代大语言模型DeepSeek-V3.1，其核心升级在于上下文长度从64k扩展至128k，这一突破不仅提升了技术参数，更为大模型的应用边界和能力深化提供了有力支撑。上下文长度作为模型理解世界和与用户交互的基石，其扩展将解锁更广阔的应用场景，使模型具备处理复杂信息、提供深度洞察的能力。本文将深入探讨上下文长度的概念、对模型的影响以及面临的挑战与解决方案。

近日，DeepSeek官方公众号宣布，正式发布新一代大语言模型DeepSeek-V3.1，其核心升级点在于上下文长度从原有的64k扩展至128k。这一突破不仅是技术参数层面的关键进阶，更直接为大模型拓宽应用边界、深化能力提供了支撑。

图源：unsplash

什么是上下文长度？

但要真正理解这一升级为何重要，我们首先需要厘清一个基础问题，究竟什么是上下文长度？

上下文长度是指模型一次能够处理并生成回应的输入文本的长度，包括用户之前的所有提问、给出的指令、提供的背景材料，以及模型自己生成的历史回答。通俗而言，它决定了模型在回答问题或执行指令时，所能“看到”和“参考”的前文范围有多长。

在技术实现上，这个长度通常以Token作为计量单位。Token是模型处理文本的基本单元，一个Token可能对应一个英文单词、一个中文汉字或词语的一部分。例如，短语“人工智能”可能被拆分为“人工”和“智能”两个Token。因此，一个支持128KToken上下文长度的模型，意味着模型能够一次性处理大约10万字以上的中文文本，这相当于一部长篇小说的体量。

对模型的影响与破局

可以说，上下文长度直接定义了模型的能力边界和应用场景，其重要性体现在以下几个方面：

第一，长文档深度分析与处理。这是最直接的应用，如果模型的上下文窗口大于或等于文档长度，便能将整个文档纳入分析范围。这使得全文总结、关键信息提取、跨章节推理、情感分析等任务成为可能。例如，研究员可以上传一篇完整的学术论文让其提炼创新点和方法论;开发者可以提交一个庞大的代码文件请求其解释逻辑或查找漏洞。倘若上下文不足，模型就只能“盲人摸象”，基于片段信息作出可能偏离整体的判断。

第二，维持长对话的连贯性与深度。在与聊天机器人进行多轮对话时，整个对话历史都会持续占用上下文窗口。更长的上下文意味着模型能记住更早的对话细节、用户申明的偏好以及设定的角色背景。这使得对话能保持一致性、上下文关联性和深度，用户体验得以大幅提升。否则，对话会很快退化为“金鱼记忆”，模型反复询问已提供过的信息，或给出前后矛盾的答案。

第三，提供丰富语境，减少幻觉。大模型的幻觉是其应用中的一大风险。通过延长上下文，用户可以为模型提供一个丰富的背景信息库，如公司内部文档、产品手册、特定数据集。模型在生成回答时，会被更牢固地锚定在这些给定的事实上，而非依赖于其内部可能不准确或过时的训练数据，从而显著提高输出的准确性和可靠性。

第四，实现(xiàn)复(fù)杂(zá)的(de)多(duō)步(bù)骤(zhòu)任(rèn)务(wu)编(biān)排(pái)。更(gèng)长(zhǎng)的(de)窗(chuāng)口(kǒu)允(yǔn)许(xǔ)用(yòng)户(hù)在(zài)单(dān)次(cì)提(tí)示(shì)中(zhōng)嵌(qiàn)入(rù)更(gèng)复(fù)杂(zá)的(de)指(zhǐ)令(lìng)链(liàn)、提(tí)供(gōng)大(dà)量(liàng)的(de)示(shì)例(lì)，甚(shén)至(zhì)定(dìng)义(yì)完(wán)整(zhěng)的(de)操(cāo)作(zuò)流(liú)程(chéng)。这(zhè)相(xiāng)当(dāng)于(yú)给(gěi)了(le)模(mó)型(xíng)一(yī)份(fèn)详(xiáng)尽(jǐn)的(de)工(gōng)作(zuò)手(shǒu)册(cè)，使(shǐ)其(qí)能够执行需要多步推理和条件判断的复杂任务编排。

不过，尽管上下文长度持续突破，其发展过程并非没(méi)有(yǒu)代(dài)价(jià)与(yǔ)挑(tiāo)战(zhàn)。一(yī)方(fāng)面(miàn)，计(jì)算(suàn)资(zī)源(yuán)的(de)二(èr)次(cì)增(zēng)长(zhǎng)，传(chuán)统(tǒng)的(de)Transformer架(jià)构(gòu)在(zài)处(chù)理(lǐ)长(zhǎng)上(shàng)下(xià)文时(shí)，其(qí)计(jì)算(suàn)复(fù)杂(zá)度(dù)和(hé)内(nèi)存(cún)消(xiāo)耗(hào)会(huì)随着Token数量的增加呈平方级增长。这意味着将上下文从2K扩展到32K，带来的计算负担可能是数百倍的提升，这对硬件和推理成本构成了巨大压力。另一方面，上下文长度是一种短暂的、对话级的工作记忆，不会在不同的对话会话之间持续存在。每次开启一个新对话，模型都是从其固定的训练知识库开始，之前的交互历史不会被自动记住，这与人类能够积累和回忆长期经验的能力有本质区别。

为了克服这些挑战，学术界和产业界正在积极探索新的技术路径。例如，更高效的注意力机制、模型架构创新、外挂记忆库以及先进的检索增强生成技术，这些都有望在不过度增加计算负担的前提下，实质性地提升模型有效利用超长上下文的能力。

写在最后：

上下文长度是大模型理解世界和与用户交互的基石性能力，从本质上刻画了模型在此时此地一次性能处理的信息规模。随着技术的不断演进，更长的、更高效的上下文窗口必将持续解锁大模型更广阔的应用场景，使其从对话者进化为真正能够驾驭复杂信息、提供深度洞察的智能伙伴。

供稿单位：重庆天极网络有限公司

作者：田福运九龙坡区人民医院副主任护师国家注册营养师

审核专家：李志高高级工程师/重庆(qìng)天(tiān)极(jí)网(wǎng)络有限公司总裁

声明：除原创内容及特别说明之外，部分图片来源网络，非商业用途，仅作为科普传播素材，版权归原作者所有，若有侵权，请联系删除。

上一篇：从“奋斗”到“躺平”？华大等揭示肝脏应对“虫癌”的免疫应答机制下一篇：AI编的东西都有哪些破绽？看这一篇就都会辨别了

上下文长度对大模型意味着什么？一文看懂

相关新闻

中国“人造太阳”找到突破密度极限方法

中国“人造太阳”找到突破密度极限方法

中国“人造太阳”找到突破密度极限方法

产品中心

产品应用

新闻中心

服务与支持

关于