新闻中心 >> 公司新闻 >>

AI大模型咋做“阅读理解”?“笨”方法成为解题关键!

2025-04-06 09:30:04

你们(men)有(yǒu)没(méi)有(yǒu)想(xiǎng)过(guò),像(xiàng)那(nà)些(xiē)聊(liáo)天(tiān)机(jī)器(qì)人(rén)或(huò)者(zhě)无(wú)所(suǒ)不(bù)能(néng)的(de)AI大(dà)语(yǔ)言(yán)模(mó)型(xíng),它(tā)们(men)是(shì)怎(zěn)么(me)看(kàn)懂(dǒng)我(wǒ)们(men)写(xiě)的(de)字(zì),听(tīng)懂(dǒng)我(wǒ)们(men)说(shuō)的(de)话(huà)呢(ne)?它(tā)们(men)又(yòu)不(bù)认(rèn)识(shi)汉(hàn)字(zì),也(yě)不(bù)会说中文,这到底是怎么做到的呢?

给每个词一个“秘密代号”

想象一下,我们要教电脑认识小动物。我们不能直接给它看图片,得用一种它能懂的语言——数(shù)字(zì)!

我(wǒ)们(men)可(kě)以(yǐ)给(gěi)每(měi)个小动物打分,比如:

▷ 毛茸茸指数(1分代表不太毛茸茸,10分代表超级毛茸茸)

▷ 汪汪叫指数(1分代表不叫,10分代表很会汪汪叫)

▷ 抓老鼠(shǔ)指(zhǐ)数(shù)(1分(fēn)代(dài)表(biǎo)不(bù)抓(zhuā),10分(fēn)代(dài)表(biǎo)抓(zhuā)老(lǎo)鼠(shǔ)高(gāo)手(shǒu))

那(nà)么(me),“小(xiǎo)狗(gǒu)”可(kě)能(néng)会(huì)得(de)到(dào)这(zhè)样(yàng)的(de)分(fēn)数(shù):毛(máo)茸(rōng)茸(rōng)指(zhǐ)数(shù) 7分(fēn),汪(wāng)汪(wāng)叫(jiào)指(zhǐ)数(shù) 9分(fēn),抓(zhuā)老(lǎo)鼠(shǔ)指数 2分。我们可以把这叫做小狗的“秘密代号”:(7, 9, 2)。

“小猫”呢?可能就是:毛茸茸指数 8分,汪汪叫指数 1分,抓老鼠指数 9分。小猫的秘密代号就是:(8, 1, 9)。

你看,“小狗”和“小(xiǎo)猫(māo)”的(de)秘(mì)密(mì)代(dài)号(hào)就(jiù)不(bù)一(yī)样(yàng)。而(ér)且(qiě),通(tōng)过(guò)比(bǐ)较(jiào)这(zhè)些(xiē)数(shù)字(zì),电(diàn)脑(nǎo)就(jiù)能(néng)“感(gǎn)觉(jué)”到(dào)它(tā)们(men)的(de)不(bù)同(tóng):哦(ó),一(yī)个(gè)喜(xǐ)欢(huan)汪(wāng)汪(wāng)叫(jiào),一(yī)个(gè)擅(shàn)长(zhǎng)抓(zhuā)老(lǎo)鼠!

超级多的“秘密代号”!

刚才我们只用了3个数字来代表小动物。但对于我们人类语言里的每一个词,比如“开心”、“学(xué)习(xí)”、“天(tiān)空(kōng)”、“香(xiāng)蕉(jiāo)”…… 大(dà)模(mó)型(xíng)会(huì)用(yòng)超(chāo)级(jí)超(chāo)级(jí)多(duō)的(de)数(shù)字(zì)来(lái)给(gěi)它(tā)们(men)“秘(mì)密(mì)代(dài)号(hào)”!不(bù)是(shì)3个(gè),也(yě)不(bù)是(shì)10个(gè),可(kě)能(néng)是(shì)几(jǐ)千(qiān)个(gè),甚(shén)至(zhì)上(shàng)万(wàn)个(gè)数(shù)字(zì)!

在(zài)GPT-1 里(lǐ),每(měi)个(gè)词用(yòng)了(le) 768 个(gè)数字来表示。在 GPT-3 里,每个词用的是 12288 个数。在 DeepSeekV3 模型里,用的是 7168 个数来表示每个词。

这么多数字,就像给每个词画了一张超级(jí)详(xiáng)细(xì)的(de)“画(huà)像(xiàng)”。电(diàn)脑(nǎo)虽(suī)然(rán)看(kàn)不(bù)懂(dǒng)“开(kāi)心(xīn)”这(zhè)两(liǎng)个(gè)字(zì),但(dàn)它(tā)能(néng)记(jì)住(zhù)“开(kāi)心(xīn)”对(duì)应(yīng)的(de)几(jǐ)千(qiān)个(gè)数(shù)字(zì)代(dài)号(hào)。

“词嵌(qiàn)入(rù)”:把(bǎ)词语(yǔ)放(fàng)进“数字空间”

科学家们给这种用一大堆数字代表一个词的方法,起了一(yī)个(gè)酷(kù)酷的名字,叫做“词嵌入”,英文叫 Embedding。

“嵌入”是啥意思呢?想象一下我们刚才给小动物打分,如果只用两个分数(比如“毛茸茸指数”和“汪汪叫指数”),我们是不是可以在一张纸上(一个二维平面)画一个点来代表“小狗”,再画一个点代表“小猫(māo)”?

▷ 小(xiǎo)狗(gǒu):(毛(máo)茸(rōng)茸(rōng)7分(fēn),汪(wāng)汪(wāng)叫(jiào)9分(fēn)) -> 在(zài)纸(zhǐ)上(shàng)的(de)某(mǒu)个(gè)点(diǎn)

▷ 小(xiǎo)猫(māo):(毛(máo)茸(rōng)茸(rōng)8分(fēn),汪(wāng)汪(wāng)叫(jiào)1分(fēn)) -> 在纸上的另一个点

这就好像把“小狗”和“小猫”这两个词,“嵌”入到了这张纸里。

如果用三个分数呢?就像长、宽、高(gāo),我(wǒ)们(men)就(jiù)可(kě)以(yǐ)在(zài)一(yī)个(gè)立(lì)体(tǐ)空(kōng)间(jiān)(比(bǐ)如(rú)一(yī)个(gè)大(dà)箱(xiāng)子(zi))里(lǐ)找(zhǎo)到(dào)一(yī)个(gè)点(diǎn)来(lái)代(dài)表(biǎo)它(tā)。

而(ér)大(dà)模(mó)型(xíng)用(yòng)几(jǐ)千(qiān)、上(shàng)万(wàn)个(gè)数(shù)字(zì)代(dài)表(biǎo)一(yī)个(gè)词,就(jiù)等(děng)于(yú)把(bǎ)这(zhè)个(gè)词“嵌(qiàn)”入(rù)到(dào)了(le)一(yī)个(gè)超(chāo)级(jí)复(fù)杂、我们想象不出来的“高维空间”里!虽然我们画不出来,但在数学上,它是存在的。

数字怎么来的?电脑自己“学”!

那这些代表词语的数字(秘密代号)是怎么定下来的呢?是人一个个设置的吗?当然不是,那太累啦!

大模型在“学习”(训练)的时候,会阅读超级多的文字,比如图书馆里所有的书、网上所有的文章。它会观察哪些词经常一起出现,哪些词意思比较像。

一开始,所有词的数字代号都是乱七八糟(zāo)的(de)。但(dàn)通(tōng)过(guò)不(bù)断(duàn)阅(yuè)读(dú)和(hé)学(xué)习(xí),大(dà)模(mó)型(xíng)会(huì)慢(màn)慢(màn)调(diào)整(zhěng)这(zhè)些(xiē)数(shù)字(zì),就(jiù)像(xiàng)整(zhěng)理(lǐ)房(fáng)间(jiān)一(yī)样(yàng),把(bǎ)意(yì)思(sī)相(xiāng)近(jìn)的(de)词,它(tā)们(men)的(de)“秘(mì)密(mì)代(dài)号(hào)”变(biàn)得(de)也(yě)更(gèng)接(jiē)近(jìn)。比(bǐ)如(rú),“高(gāo)兴(xìng)”和(hé)“快(kuài)乐(lè)”的(de)秘(mì)密(mì)代(dài)号(hào)会(huì)很(hěn)像(xiàng),它(tā)们(men)在(zài)那(nà)个(gè)“数(shù)字(zì)空(kōng)间(jiān)”里(lǐ)的(de)位(wèi)置(zhì)也(yě)会(huì)靠(kào)得(de)很(hěn)近(jìn)。而(ér)“高(gāo)兴(xìng)”和(hé)“桌(zhuō)子(zi)”的(de)秘(mì)密(mì)代(dài)号(hào)就(jiù)会(huì)差(chà)很(hěn)远(yuǎn)。

一(yī)词多(duō)义(yì)怎(zěn)么(me)办(bàn)?看(kàn)“邻居”!

我们知道,有的词有好几个意思,比如“球”,可以指篮球、足球,也可以指地球。电脑怎么知道我们说的是哪个“球”呢?

别(bié)担(dān)心(xīn)!当(dāng)一(yī)个(gè)词和(hé)其(qí)他(tā)词一(yī)起(qǐ)出(chū)现(xiàn)时(shí),这(zhè)些(xiē)“邻(lín)居(jū)”词会(huì)给(gěi)它(tā)线(xiàn)索(suǒ)。

▷ 如(rú)果(guǒ)你(nǐ)说(shuō)“踢(tī)球(qiú)”,旁(páng)边(biān)的(de)“踢(tī)”这(zhè)个(gè)词的(de)秘(mì)密(mì)代(dài)号(hào),就(jiù)会(huì)和(hé)“球(qiú)”的(de)秘(mì)密(mì)代(dài)号(hào)发(fā)生(shēng)一(yī)种(zhǒng)奇(qí)妙(miào)的(de)“化(huà)学(xué)反(fǎn)应(yīng)”(其(qí)实(shí)是(shì)数(shù)学(xué)计(jì)算(suàn)),让(ràng)“球(qiú)”的(de)代(dài)号(hào)更(gèng)偏(piān)向(xiàng)“足(zú)球(qiú)”或(huò)“篮(lán)球(qiú)”的(de)意(yì)思(sī)。

▷ 如(rú)果(guǒ)你(nǐ)说(shuō)“地(de)球(qiú)”,旁(páng)边(biān)的(de)“地(de)”字(zì)就(jiù)会(huì)让(ràng)“球(qiú)”的(de)代(dài)号(hào)指(zhǐ)向(xiàng)我(wǒ)们(men)居(jū)住(zhù)的(de)这(zhè)个(gè)星(xīng)球(qiú)。

所(suǒ)以(yǐ),词语(yǔ)的(de)秘(mì)密(mì)代(dài)号(hào)不(bù)是(shì)一(yī)成(chéng)不(bù)变(biàn)的(de),它(tā)会(huì)根(gēn)据(jù)上(shàng)下(xià)文,也(yě)就(jiù)是(shì)旁(páng)边(biān)的(de)“邻(lín)居(jū)”词,进(jìn)行(xíng)微(wēi)小(xiǎo)的(de)调(diào)整(zhěng),变(biàn)得(de)更(gèng)准(zhǔn)确(què)!

总(zǒng)结(jié)一(yī)下(xià)

所(suǒ)以(yǐ),大(dà)模(mó)型(xíng)理(lǐ)解(jiě)文字(zì)的(de)秘(mì)密(mì)武(wǔ)器(qì)就(jiù)是(shì):

(1)给(gěi)每(měi)个(gè)词一(yī)大串数字作为“秘密代号”(词嵌入)。

(2)这些数字能表示词语的意思和它们之间的关系。

(3)意思相近的词,它们的“秘密代号”也相近。

(4)电脑通过阅读海量文字,自己学会怎么给词语定这些代号。

(5)通过词语旁边的“邻居”词,电脑能判断一个词在当前语境下的准确意思。

是不是很有趣?电脑用这种我们看起来有点“笨”的数学方法,竟然就能处理我们复杂又美妙的语言啦!这背后其实是很多聪明的数学和计算在帮忙哦!

供稿单位:重庆市无线电科普体验中心
审核专家:张启义
声明:除原创内容及特别说明之外,部分图片来源网络,非商业用途,仅作为科普传播素材,版权归原作者所有,若有侵权,请联系删除。

400-85643322
广东省广州市番禺区长沙路103号
PR:com@czzscl.com; Sales:ccm@czzscl.com
粤ICP备19042278号 | © 2025 汽车芯片科技有限公司官方网站【登录入口】. All rights reserved. | 网站地图