2025-09-12 09:30:37
视联网作为新型基础设施,通过进一步构建全链路高清视频和多模态智能交互结合,推动产业数字化高质量发展。2025年,随着生成式AI与大模型的爆发式发展,作为视联网重要技术体系之一的大小模型协同加速演进。大模型提供全局感知、多模态理解与决策推理能力,小模型聚焦边缘端低延迟、高可靠的实时处理需求,二者通过“云边端”分层架构形成互补共生。

1、技术演进
视联网的核心是通过高清视频的实时采集、传输与智能处理,实现物理世界与数字世界的深度融合。传统视联网依赖“端侧采集+云端处理”的集中式架构,随着4K/8K超高清视频普及、实时交互需求激增,集中式架构在算力成本、传输带宽、隐私安全等方面的瓶颈日益凸显。在此背景下,大小模型协同技术依托端云协同架构,推动视联网从“被动记录”向“主动感知、智能决策”跃迁。
1.1 视联网“全局智能中枢”
大模型凭借强大的泛化能力与多模态理解能力,作为大小模型协同的“大脑”,主要承担三类核心任务:
①跨模态语义解析:传统视联网的视频分析多聚焦于目标检测,而大模型通过处理对历史数据和实时数据关键帧检测、音视频分离后的数据,生成详细的密集文本描述,并通过融合文本、语音、传感器等多模态数据,可实现“视频内容的语义化理解”。在智慧城市场景中,大模型可将交通摄像头的视频流与气象数据、交通管制通知关联,自动判断“暴雨天气下某路段积水是否需临时封路”,而非仅识别“车辆排队长度”。
②长时序决策推理:大模型的长上下文窗口使其能处理跨时间维度的视频序列,实现“因果关系推断”。在工业质检中,大模型通过分析大量设备运行历史视频,结合历史故障数据,预测“某轴承可能在48小时后因磨损引发停机”,而非仅瑕疵质检“当前是否有裂纹”。
③模型动态优化:大模型通过“预训练+微调”机制,可为不同边缘场景的小模型提供定制化能力,通过教师-学生模型架构,将大模型知识迁移至小模(mó)型(xíng)。在(zài)安(ān)防(fáng)场景中,大模型可基于人脸识别数据训练通用特征提取器,再微调为适应老旧摄像头低分辨率、夜间光照的小模型,提升边缘端的识别准确率。
1.2 视联网(wǎng)“边(biān)缘(yuán)智(zhì)能(néng)触(chù)手(shǒu)”
小(xiǎo)模(mó)型(xíng)聚(jù)焦(jiāo)端(duān)侧(cè)实(shí)时(shí)处(chù)理(lǐ),通(tōng)过(guò)模(mó)型(xíng)压(yā)缩(suō)、知(zhī)识(shi)蒸(zhēng)馏(liú)轻(qīng)量(liàng)化(huà)设(shè)计(jì)与(yǔ)GPU/NPU加(jiā)速(sù)的(de)硬(yìng)件(jiàn)适(shì)配(pèi),解(jiě)决(jué)大(dà)模(mó)型(xíng)“云(yún)端(duān)延(yán)迟(chí)高(gāo)、边缘算力弱”的矛盾,主要承担三类任务:
①实时特征提取:在远程医疗场景中,手术机器人的摄像头每秒生成8K视频流,若直接上传云端分析,延迟过高,无法满足该参加低延(yán)时(shí)的(de)要(yào)求(qiú)。小(xiǎo)模(mó)型(xíng)可(kě)在(zài)端(duān)侧(cè)完(wán)成(chéng)关键区(qū)域的(de)实(shí)时(shí)分(fēn)割(gē)与(yǔ)特(tè)征(zhēng)提(tí)取(qǔ),仅(jǐn)将(jiāng)压(yā)缩(suō)后(hòu)的(de)特(tè)征(zhēng)向(xiàng)量(liàng)上(shàng)传(chuán)云(yún)端(duān),大(dà)大(dà)降(jiàng)低(dī)延(yán)。
②隐(yǐn)私(sī)保(bǎo)护(hù)计(jì)算(suàn):视(shì)联(lián)网(wǎng)涉(shè)及(jí)大(dà)量(liàng)敏(mǐn)感(gǎn)数据,小模型可通过联邦学习技术在本地完成模型训练,仅上传梯度而非原始数据。在城市智慧社区的人脸识别系统采用小模型,各小区独立训练本地模型,通过联邦学习共享人脸识别的泛化能力,避免用户面部信息跨区域传输。
③动态场景适配:不同边缘场景的视频特征差异显著,小模型可通过灵活快速适应新环境。
1.3 大小模型协同模式
①能力编排:通过大小模型能力编排,基于任务复杂度自适应分配计算资源,采用动态路由算法,将文本分类任务分配给小模型,图像生成任务触发大模型提高资源利用率。
②串行推理:将(jiāng)推(tuī)理(lǐ)流(liú)程(chéng)分(fēn)解(jiě)为(wèi)数(shù)据(jù)预(yù)处(chù)理(lǐ)、特(tè)征(zhēng)提(tí)取(qǔ)、决(jué)策(cè)生(shēng)成(chéng)等(děng)阶(jiē)段(duàn),各(gè)阶(jiē)段(duàn)由(yóu)不(bù)同(tóng)模(mó)型(xíng)处(chù)理(lǐ)。端(duān)侧(cè)小(xiǎo)模(mó)型(xíng)处(chù)理(lǐ)传(chuán)感(gǎn)器(qì)数(shù)据(jù),云(yún)端(duān)大(dà)模(mó)型(xíng)执(zhí)行(xíng)复杂任务,通过小模型初筛和大模型复核降低误检率。
③并行推理:首先进行数据并行,输入数据分片由多个模型并行处理,实现多路视频流并行分析。然后进行模型并行,大模型拆分为多个子模块分布处理,任务拆分为多个子任务,实现并行加速。
1.4 云边端架构支撑
大小模型的协同需依赖“云边端”三层架构的深度解耦与智能调度。云端负责全局数据存储、多模态训练、策略生成,通过协议接口为边缘端提供能力调用;边缘端部署轻量化模型,处理实时性要求高的任务,并将关键结果上传云端;终端负责高清视频采集,通过硬件优化降低传输带宽与计算负载。
2、核心挑战
尽管大小模型协同已在多场景试点落地,但其规模化发展仍面临很大挑战,需通过技(jì)术(shù)创(chuàng)新(xīn)、政(zhèng)策(cè)引(yǐn)导(dǎo)与(yǔ)生(shēng)态(tài)共(gòng)建(jiàn)破(pò)解(jiě)。
①算(suàn)力(lì)分(fēn)配(pèi)矛(máo)盾(dùn)
云(yún)脑(nǎo)与(yǔ)端(duān)手(shǒu)的(de)资(zī)源(yuán)博(bó)弈(yì),大(dà)模(mó)型(xíng)需(xū)要(yào)高(gāo)性(xìng)能(néng)GPU集群(qún)支(zhī)撑(chēng)训(xun)练(liàn),而(ér)小(xiǎo)模(mó)型(xíng)需(xū)边(biān)缘(yuán)端(duān)低功耗芯片适配,二者在算力分配上存在天然矛盾。需要继续推动模型轻量化和硬件定制化。一方面,采用知识蒸馏、稀疏化等技术压缩模型体积;另一方面,芯片厂商针对小模型需求开发专用AI芯片,实现“算力-功耗-成本”的最优平衡。
②数据隐私风险
本地处理与全局优化是协同任务的平衡难题,视联网涉及大量敏感数据,小模型的本地处理虽能降低传输风险,但大模型的全局优化需要跨场景数据训练,二者存在隐私保护的冲突。
③标准体系滞后
由于技术多样与产业协同的机制障碍,当前视联网大小模型协同缺乏统一标准,不同厂商的大模型接口、小模型格式、边缘设备协议存在差异,导致系统孤岛现象。需要进一步推动政策引导和行业共建。明确大模型的接口协议、小模型的输出格式、边缘设备的兼容性要求,加速生态融合。
3、未来展望
随着大模型参数规模突破万亿级、小模型轻量化技术成熟,视联网的大小模型协同将从功能互补迈向深度融合,呈现三大趋势:
①多模态大小模型融合
未来的视联网大模型将不再局限于单一模态,而是融合文本、语音、传感器、甚至物联网设备状态数据,形成全域感知大模型;小模型则针对具体场景开发专用版本,二者通过“模型插件”机制深度绑定。
②端云协同向端边云脑架构演进
随着边缘计算节点的普及,视联网将形成“终端采集-边缘端实时处理-边缘云区域协同-中心云全局决策”的多级架构。其中,边缘云承载区域级小模型集群,负责处理本区域内跨场景的协同任务;中心云则聚焦跨区域大模型训练,进一步提升响应速度,降低中心云负载。
③工具赋能到生态共生的产业变革
大小模型协同将推动视联网从技术工具升级为产业生态。通过在智慧农业、智慧城市、智慧工业等场景的落地应用,实现从技术赋能向生态共生的范式转换,构建起“数据驱动创新、生态反哺技术”的良性循环体系。
4、结语
视联网的大小模型协同,本质是智能与效率的平衡,大模型赋予系统思考深度,小模型保障行动速度,二者共同编织出一张能感知、会思考、可执行的智能视频网络。随着技术迭代与生态完善,这张网络将深度渗透至城市治理、民生服务、产业升级的每一个角落,成为数字时代科技向善的最佳注脚。
作者:王晓宇、李杰、李萌
单位:中国移动研究院
