【世界速看料】語(yǔ)言AI原來(lái)知道自己的回答是否正確
語(yǔ)言AI,具備了人類(lèi)的自我審視能力:最近,一個(gè)來(lái)自加州大學(xué)伯克利分校和霍普金斯大學(xué)的學(xué)術(shù)團(tuán)隊(duì)研究表明:它不僅能判斷自己的答案正確與否,而且經(jīng)過(guò)訓(xùn)練,還能預(yù)測(cè)自己知道一個(gè)問(wèn)題答案的概率。
訪問(wèn):
(資料圖片僅供參考)
阿里云“無(wú)影云電腦” 支持企業(yè)快速實(shí)現(xiàn)居家辦公
研究成果一經(jīng)發(fā)布,就引起熱議,有人的第一反應(yīng)是恐慌:
也有人認(rèn)為,這項(xiàng)成果,對(duì)神經(jīng)網(wǎng)絡(luò)研究具有正面意義:
語(yǔ)言AI具備自我審視能力
研究團(tuán)隊(duì)認(rèn)為,如果要讓語(yǔ)言AI模型自我評(píng)估,必須有一個(gè)前提:
語(yǔ)言AI回答問(wèn)題時(shí),會(huì)校準(zhǔn)自己的答案。
這里的校準(zhǔn),就是語(yǔ)言AI預(yù)測(cè)一個(gè)答案的正確概率,是否與實(shí)際發(fā)生的概率一致。
只有這樣語(yǔ)言AI才可以運(yùn)用這種校準(zhǔn)的能力來(lái)評(píng)估自己輸出的答案是否正確。
所以第一個(gè)問(wèn)題是,語(yǔ)言AI能否對(duì)自己的答案進(jìn)行校準(zhǔn)?
為了證明這個(gè)問(wèn)題,研究團(tuán)隊(duì)為AI準(zhǔn)備了5個(gè)選擇題:
答案選項(xiàng),以A、B、C的形式給出。
如果AI模型答案的正確率超過(guò)偶然幾率,那么就證明AI模型給出的答案是經(jīng)過(guò)校準(zhǔn)的。
而測(cè)試的結(jié)果是,語(yǔ)言AI給出的答案,正確率明顯超過(guò)任意選項(xiàng)的偶然幾率。
也就是說(shuō),語(yǔ)言AI模型可以對(duì)自己的答案進(jìn)行很好的校準(zhǔn)。
但研究團(tuán)隊(duì)發(fā)現(xiàn),語(yǔ)言AI的校準(zhǔn)能力,是建立在選項(xiàng)答案明確的前提下的。
如果在選項(xiàng)中加入一個(gè)“以上都不是”的不確定選項(xiàng),就會(huì)損害語(yǔ)言AI的校準(zhǔn)能力。
也就是說(shuō),在特定格式的選擇題中,語(yǔ)言AI模型可以對(duì)答案進(jìn)行很好的校準(zhǔn)。
明確了這個(gè)前提之后,下一個(gè)問(wèn)題是,驗(yàn)證語(yǔ)言AI模型能夠判斷自己的答案是否正確。
在這一輪的測(cè)試中,為了能讓AI模型的預(yù)測(cè)更接近自己的有效決策邊界。
研究團(tuán)隊(duì)仍然選擇上一輪測(cè)試的問(wèn)題,以及語(yǔ)言AI模型的答案樣本。
同時(shí)讓AI模型選擇自己的答案真假與否,之后再針對(duì)這個(gè)“真”或“假”的答案,分析AI模型是否做出有效的校準(zhǔn)。
問(wèn)題設(shè)置舉例如下:
在經(jīng)過(guò)20次的真假測(cè)試之后,研究團(tuán)隊(duì)發(fā)現(xiàn),語(yǔ)言AI模型對(duì)自己答案或“真”或“假”的評(píng)價(jià),都經(jīng)過(guò)明顯的校準(zhǔn)。
也就是說(shuō),如果在一個(gè)范圍內(nèi),給AI模型提出若干問(wèn)題,然后AI模型對(duì)這些問(wèn)題的答案進(jìn)行真假評(píng)價(jià),具有合理的,且經(jīng)過(guò)校準(zhǔn)的置信度。
這也證明,語(yǔ)言AI模型確實(shí)可以判斷自己對(duì)一個(gè)問(wèn)題的主張是否正確。
最后,研究團(tuán)隊(duì)對(duì)語(yǔ)言AI模型提出了一個(gè)更難的問(wèn)題:AI模型經(jīng)過(guò)訓(xùn)練,能否預(yù)測(cè)他們是否知道任何給定問(wèn)題的答案。
在這一環(huán)節(jié),研究團(tuán)引入一個(gè)數(shù)據(jù)P(IK)(我知道這個(gè)答案的概率)并在下面兩種訓(xùn)練方式中挑選一種進(jìn)行訓(xùn)練:
Value Head(價(jià)值導(dǎo)向):把P(IK)訓(xùn)練成為一個(gè)額外的價(jià)值導(dǎo)向,再添加到模型的對(duì)數(shù)(獨(dú)立于語(yǔ)言建模的對(duì)數(shù),這種方法的優(yōu)勢(shì)在于,研究團(tuán)隊(duì)可以很容易的探測(cè)P(IK)的一般標(biāo)記位置。
Natural Language(自然語(yǔ)言):這種方法比較簡(jiǎn)單,就是要求AI模型從字面上回答“你知道這個(gè)答案的概率是多少”,同時(shí)輸出一個(gè)百分比數(shù)據(jù)答案。
在訓(xùn)練初期,研究團(tuán)隊(duì)比較傾向于自然語(yǔ)言訓(xùn)練方式,但結(jié)果并不顯著,由此轉(zhuǎn)向價(jià)值導(dǎo)向方式,不過(guò)研究團(tuán)隊(duì)同時(shí)表示,最終對(duì)AI模型的訓(xùn)練還將回歸自然語(yǔ)言方法。
在經(jīng)過(guò)訓(xùn)練之后,研究團(tuán)隊(duì)發(fā)現(xiàn),語(yǔ)言AI模型可以很好的預(yù)測(cè)P(IK),并且在不同類(lèi)型的問(wèn)題中,這種預(yù)測(cè)能力具有部分通用性。
不過(guò),研究團(tuán)隊(duì)也發(fā)現(xiàn),在某些類(lèi)型的問(wèn)題,比如算術(shù)問(wèn)題,語(yǔ)言AI模型在OOD校準(zhǔn)時(shí)有一些困難。
對(duì)于這一學(xué)術(shù)成果,研究團(tuán)隊(duì)表示,將來(lái)的方向,是將這些成果,推廣到語(yǔ)言AI模型不模仿人類(lèi)文本的前提下,自我學(xué)習(xí)和事實(shí)推理領(lǐng)域。
作者介紹
論文通訊作者Jared Kaplan博士,是一位理論物理學(xué)家,同時(shí)也是一位機(jī)器學(xué)習(xí)專家,現(xiàn)擔(dān)任霍普金斯大學(xué)助理教授,主要研究領(lǐng)域,機(jī)器學(xué)習(xí)研究,包括神經(jīng)模型的縮放規(guī)律以及GPT-3語(yǔ)言模型。
共同通訊作者Saurav Kadavath,Anthropic公司研究員,現(xiàn)在加州大學(xué)伯克利分校EECS專業(yè)攻讀碩士學(xué)位,主要研究領(lǐng)域是機(jī)器學(xué)習(xí),大規(guī)模語(yǔ)言學(xué)習(xí)等。
關(guān)鍵詞: 人工智能 語(yǔ)言AI原來(lái)知道自己的回答是否正確 cnBeta
2022-07-15 15:50:41
2022-07-15 15:49:27
2022-07-15 15:48:55
2022-07-15 15:48:09
2022-07-15 15:47:01
2022-07-15 15:46:38
2022-07-15 15:46:21
2022-07-15 15:43:37
2022-07-15 15:42:11
2022-07-15 15:39:16
2022-07-15 15:37:00
2022-07-15 12:49:41
2022-07-15 09:56:45
2022-07-15 09:54:14
2022-07-15 09:46:33
2022-07-15 09:40:18
2022-07-15 09:38:51
2022-07-15 09:33:55
2022-07-15 08:52:15
2022-07-15 08:47:46
2022-07-15 08:45:45
2022-07-15 08:41:11
2022-07-15 08:39:52
2022-07-15 08:37:44
2022-07-15 08:37:02
2022-07-15 08:36:36
2022-07-15 08:35:29
2022-07-15 08:34:33
2022-07-15 08:31:37
2022-07-15 08:29:21
2022-07-15 08:24:22
2022-07-15 07:48:54
2022-07-15 07:41:13
2022-07-15 07:40:59
2022-07-15 07:33:48
2022-07-15 07:32:52
2022-07-15 05:52:48
2022-07-15 05:50:35
2022-07-15 05:41:33
2022-07-15 05:33:48
2022-07-15 05:29:12
2022-07-14 21:37:13
2022-07-14 20:57:55
2022-07-14 20:56:05
2022-07-14 20:55:05
2022-07-14 20:49:14
2022-07-14 20:49:05
2022-07-14 20:37:47
2022-07-14 19:48:34
2022-07-14 19:47:45
2022-07-14 19:42:09
2022-07-14 19:40:56
2022-07-14 19:34:49
2022-07-14 19:34:16
2022-07-14 18:47:43
2022-07-14 18:46:42
2022-07-14 18:45:29
2022-07-14 18:44:00
2022-07-14 18:38:42
2022-07-14 17:53:48
2022-07-14 17:53:47
2022-07-14 17:49:29
2022-07-14 17:47:01
2022-07-14 17:29:35
2022-07-14 16:53:04
2022-07-14 16:46:07
2022-07-14 16:44:48
2022-07-14 16:43:38
2022-07-14 16:35:31
2022-07-14 15:54:16
2022-07-14 15:52:39
2022-07-14 15:48:35
2022-07-14 15:47:04
2022-07-14 15:45:33
2022-07-14 15:43:06
2022-07-14 15:39:33
2022-07-14 15:37:35
2022-07-14 15:33:24
2022-07-14 15:33:12
2022-07-14 15:22:34
2022-07-14 15:21:39
相關(guān)新聞