2025-06-13 16:30:12
【导(dǎo)语(yǔ)】视(shì)频(pín)通(tōng)话(huà)及(jí)会(huì)议(yì)服(fú)务(wu),历(lì)经(jīng)技(jì)术(shù)革(gé)新(xīn),已(yǐ)广(guǎng)泛(fàn)渗(shèn)透(tòu)至(zhì)社(shè)交(jiāo)、商(shāng)务(wu)、医(yī)疗(liáo)等(děng)多(duō)个(gè)领(lǐng)域,实(shí)现(xiàn)从(cóng)基(jī)础(chǔ)通(tōng)信(xìn)到(dào)多(duō)元(yuán)化(huà)智(zhì)能(néng)服(fú)务(wu)的(de)飞(fēi)跃(yuè)。随(suí)着(zhe)通(tōng)信(xìn)网(wǎng)络(luò)、多(duō)媒(méi)体(tǐ)、人(rén)工(gōng)智(zhì)能(néng)及(jí)扩(kuò)展(zhǎn)现(xiàn)实(shí)技(jì)术(shù)的(de)深(shēn)度(dù)融(róng)合(hé),服(fú)务(wu)体(tǐ)验(yàn)跃(yuè)升(shēng)至(zhì)新(xīn)高(gāo)度(dù),催(cuī)生(shēng)AR特(tè)效(xiào)、虚(xū)拟(nǐ)背(bèi)景(jǐng)等(děng)创(chuàng)新(xīn)功(gōng)能(néng),引(yǐn)领(lǐng)“沉(chén)浸(jìn)式智能交互”新潮流。然而,技术进步也带来了质量评价的新挑战。本文将探讨视频通话及会议服务的发展背景、服务功能多元化、质量评价体系演进及未来展望,旨在构建技术赋能与体验优化的闭环,强化数字时代的沟通桥梁。作者刘梦莹、赵丽丽来自中国移动研究院。

视频通话及会议服务如今已广泛应用于社交娱乐、商务办公、远程医疗等多个领域。随着通信网络与多媒体技术进步,视频分辨率提升至1080p甚至4K,用户体验跃上新台阶。与人工智能、扩展现实的深度融合催生了AR特效、虚拟背景、语音转写等创新功能,推动服务向“沉浸式智能交互”跃迁。伴随技术融合,质量评价维度扩展至沉浸感、智能服务性能等新指标。未来有望在多模态内容评估、智能化评价工具等方向实现突破,构建技术赋能与体验优化的闭环,筑牢数字时代沟通桥梁。
1、视(shì)频(pín)通(tōng)话(huà)及会议服务发展背景
从1927年贝尔实验室的“图像电话”雏形,到如今高度普及的视频通话及会议服务,实时通信技术成熟度与应用广度持续提升。当前,视频通话及会议已深度渗透至社交娱乐、商务办公、在线教育、远程医疗(liáo)等(děng)领(lǐng)域,形(xíng)成(chéng)了从一对一私密通信到多人并发协作的多元服务形态。
随着通信网络与多媒体技术的不断迭代,视频通话及会议服务支持的视频分辨率已提升至1080p,在远程医疗等专业场景甚至达到4K,将视频通话体验推向新高度。与此同时,与人工智能、扩展现实技术的深度融合,推动视频通话与会议服务从单一的实时音视频通话向多元化功能拓展。虚拟背景、语音转写、实时翻译、AR特效等创新功能的应用,不仅显著提升了远程协作效率,也为日常联络增添了趣味性。当前,用户对体验质量的评价已从单一音视频维度,转向涵盖全功能的综合评估需求,构建多元媒体功能的质量评价体系成为行业共识。
2、服务功能向多元化拓展
近年来,随着算力突破、大数据积累和算法创新,人工智能(AI)正处于深度学习驱动的爆发期。AI技术通过多模态感知与实时分析,显著提升了视频通话的体验与效率。在媒体处理与传输环节,AI语音降噪、AI画质增强等技术有效优化了呈现给用户的音视频质量。此外,AI技术还赋能了多样化的扩展功能:集成自然语言处理与知识图谱的AI助理,可实时完成语音转写和会议记录生成,大幅提升远程协作效率;而手势识别功能则通过捕捉用户举手、赞同、反对等动态指令,实现了无接触交互,替代传统鼠标键盘操作。
扩展现实(XR)涵盖虚拟现实(VR)、增强现实(AR)和混合现实(MR)三大技术方向,通过虚实融合扩展人类感知边界。XR技术为视频通话及会议服务建立了多模态交互体系。在社交娱乐场景中,可集成虚拟形象(xiàng)、表情雨特效等娱乐化交互元素,提升社交互动的趣味性。在远程客服、工业运维等行业场景中,通过AR标注将虚拟信息实时叠加至物理对象(如设备故障点),实现虚实融合协作,降低现场维护成本。AR、VR头戴式设备的引入进一步重塑了视频通话的空间交互维度,可将会议内容叠加于真实环境实现混合现实协作,或进入虚拟会议空间突破平面音视频的交互局限。
总体而言,人工智能与扩展现实技术的融合,正推动视频通话及会议服务从“平面对话”向“沉浸式智能交互”跃迁。依托计算机视觉、语音识别、空间计算等技术,可实时解析用户行为、环境数据与交互意图,构建虚实融合的智能交互场景。
3、质量评价体系的演进
在实时音视频通话的质量评价领域,行业已建立起相对成熟的体系,涵盖服务质量(QoS)与体验质量(QoE)关键影响因素、主观测试方法及客观评价模型。为满足隐私数据保护和业务质量监控的双重需求,中国移动主导发布了首(shǒu)个(gè)视(shì)频(pín)通(tōng)话(huà)服(fú)务(wu)质(zhì)量(liàng)客(kè)观(guān)评(píng)估(gū)监(jiān)控(kòng)模(mó)型(xíng)国(guó)际(jì)标(biāo)准(zhǔn)——ITU-T P.940《用(yòng)于(yú)视(shì)频(pín)通(tōng)话(huà)服(fú)务(wu)质(zhì)量(liàng)监(jiān)控(kòng)和(hé)评(píng)估(gū)的(de)计(jì)算(suàn)模(mó)型(xíng)》,以(yǐ)及(jí)主观(guān)评(píng)价(jià)标(biāo)准(zhǔn)增(zēng)补(bǔ)件(jiàn)ITU-T P Suppl.31《视(shì)频(pín)通(tōng)话(huà)服(fú)务(wu)中(zhōng)音(yīn)视(shì)频(pín)通(tōng)话(huà)质(zhì)量(liàng)的(de)主观(guān)评(píng)价(jià)》。这(zhè)两(liǎng)项(xiàng)标(biāo)准(zhǔn)填(tián)补(bǔ)了(le)行(xíng)业(yè)空(kōng)白(bái),进(jìn)一(yī)步(bù)完(wán)善(shàn)了(le)视(shì)频(pín)通(tōng)话(huà)服(fú)务质量评价标准体系,为音视频通话质量监控与体验优化提供标准依据。
随着视频通话与会议服务不断融入人工智能(AI)、扩展现实(XR)等扩展功能,媒体内容与呈现形式日益丰富,同时也增加了媒体处理环节,引入了以下新型评价维度:
①实时性要求:核心指标为端到端延迟与媒体同步,需评估新增媒体处理环节(例如XR场景的三维渲染、AI算法处理)对延迟的影响。
②沉浸感指标:聚焦用户在AR特效、XR远程会议等场景中的多维体验,包括虚实融合的自然度、虚拟形象动作的流畅度、虚拟场景渲染的精度等方面。
③智能服务性能:针对AI赋能的各类扩展功能,需关注响应速度、识别准确率、检测误差以及算力资源利用率等关键性能指标。
4、挑战与展望
人工智能、扩展现实技术的融合,正推动视频通话及会议服务在多个领域发挥更重要的作用,为用户带来更便捷、高效、沉浸式的沟通体验,进一步筑牢数字时代的沟通桥梁。然而,技术创新也使服务质量和体验质量评价面临多重挑战:新增的多模态交互需扩展评价维度,用户体验的主观模糊性难以量化,数据采集处理的隐私安全问题与质量监控需求之间的平衡,以及不同垂直场景的差异化指标要求等。这些挑战推动了聚焦扩展媒体功能的专项评估方法与综合体验质量的研究。未来,有望在多模态内容评估、智能化评价工具等方向取得突破,从而构建更完善的技术赋能与体验优化闭环。
作者:刘梦莹、赵丽丽
单位:中国移动研究院
