中文字幕精品亚洲一区,日韩欧中文字幕,se98精品一区精品二区

GPT-4推理太離譜！大學(xué)數(shù)理化總分沒過半，21類推理題全翻車，馬庫(kù)斯：AGI太遙遠(yuǎn)

2023-08-15 08:00:58 程序員客棧

【資料圖】

新智元報(bào)道

編輯：編輯部

【新智元導(dǎo)讀】「地表最強(qiáng)」GPT-4在推理問題中接連出錯(cuò)！MIT校友，以及UCLA華人一作的最新研究引眾多網(wǎng)友圍觀。

GPT-4根本不會(huì)推理！

近來(lái)，有兩篇研究稱，GPT-4在推理方面表現(xiàn)不盡人意。

來(lái)自MIT的校友Konstantine Arkoudas，在21種不同類型推理集中，對(duì)GPT-4進(jìn)行了評(píng)估。

然后，對(duì)GPT-4在這些問題上的表現(xiàn)進(jìn)行了詳細(xì)的定性分析。

研究發(fā)現(xiàn)，GPT-4偶爾會(huì)展現(xiàn)出「最強(qiáng)大腦」的天賦，但目前來(lái)看，GPT-4完全不具備推理能力。

論文地址：https://www.preprints.org/manuscript/202308.0148/v2

研究一出，引來(lái)眾多網(wǎng)友圍觀。

馬庫(kù)斯表示，「如果這是真的——正如我早就說過的那樣——我們離AGI還差得遠(yuǎn)呢。我們可能需要進(jìn)行大量的重新校準(zhǔn)：沒有推理就不可能有 AGI」。

而另一篇來(lái)自UCLA和華盛頓大學(xué)的研究也發(fā)現(xiàn)，GPT-4，以及GPT-3.5在大學(xué)的數(shù)學(xué)、物理、化學(xué)任務(wù)的推理上，表現(xiàn)不佳。

論文地址：https://arxiv.org/pdf/2307.10635.pdf

研究人員引入了一個(gè)大學(xué)科學(xué)問題解決基礎(chǔ)SCIBENCH，其中包含2個(gè)數(shù)據(jù)集：開放數(shù)據(jù)集，以及封閉數(shù)據(jù)集。

通過對(duì)GPT-4和GPT-3.5采用不同提示策略進(jìn)行深入研究，結(jié)果顯示，GPT-4成績(jī)平均總分僅為35.8%。

這項(xiàng)研究同樣再次引起馬庫(kù)斯的關(guān)注：

關(guān)于數(shù)學(xué)、化學(xué)和物理推理的系統(tǒng)調(diào)查，結(jié)果顯示，目前的LLM無(wú)法提供令人滿意的性能......沒有一種提示策略明顯優(yōu)于其他策略。

下面我們就來(lái)具體看看，GPT-4如何在21個(gè)問題集，數(shù)學(xué)、物理、化學(xué)上推理慘敗的。

21個(gè)問題集，GPT-4全翻車

不過，在看GPT-4回答問題之前，作者給出了一個(gè)注意事項(xiàng)：

GPT-4是一個(gè)非確定性系統(tǒng)，即使參數(shù)設(shè)置相同，在不同的運(yùn)行中也可能產(chǎn)生不同的答案。

而以下的測(cè)試交流都是逐字記錄的，根據(jù)作者的經(jīng)驗(yàn)，文中討論的GPT-4出錯(cuò)的地方往往具有魯棒性。

1.簡(jiǎn)單算術(shù)

能夠進(jìn)行基本運(yùn)算，是推理的必要條件。

但是，GPT-4仍然無(wú)法可靠地執(zhí)行加法、乘法等基本算術(shù)運(yùn)算。

比如，讓GPT-4在1381和1453之間隨機(jī)選擇兩個(gè)數(shù)字相乘，并給出結(jié)果。

GPT-4選擇了1405，以及1421，但是最后給出的結(jié)果顯然是錯(cuò)的。因?yàn)?405×1421=1996505。

2.簡(jiǎn)單計(jì)數(shù)

雖然具體計(jì)數(shù)并不一定是一種推理活動(dòng) ，但它肯定是任何具有一般能力推理系統(tǒng)的必備條件。

在這里，給GPT-4一個(gè)命題變量，并在它前面加上27個(gè)否定符號(hào)，要求它計(jì)算否定符號(hào)的個(gè)數(shù)。

對(duì)于我們來(lái)講，這簡(jiǎn)直輕而易舉，尤其是否定符號(hào)是間隔5個(gè)寫成的，并且有5組，最后一對(duì)否定符號(hào)緊隨其后。

然而，GPT-4卻給出了「28個(gè)」答案。

3.（醫(yī)學(xué)）常識(shí)

當(dāng)前，我們可以將常識(shí)性論證視為，從給定信息加上未說明的條件（默認(rèn)的、普遍接受的背景知識(shí)）中得出的簡(jiǎn)單推理。

在這種特殊情況下，常識(shí)性知識(shí)就是「人在死前是活著的，死后就不會(huì)再活著」這樣的命題。

比如，當(dāng)你問GPT-4：Mable上午9點(diǎn)的心率為75 bpm，下午7點(diǎn)的血壓為120/80。她于晚上11點(diǎn)死亡。她中午還活著嗎？

GPT-4竟回答：根據(jù)所提供的信息，無(wú)法確定Mable中午是否還活著。

但明顯根據(jù)給定的信息，常識(shí)性推斷（不用想）直接得出結(jié)論了。

4.初級(jí)邏輯

如果P(x)包含Q(x)，而Q(a)不成立，那么我們就可以根據(jù)模型推論出P(a)也不成立（因?yàn)槿绻鸓(a)成立，那么Q(a)也會(huì)成立）。

這是一個(gè)最基本的同義反復(fù)，但GPT-4卻完全提出一個(gè)反模型：

值得注意的是，GPT-4認(rèn)識(shí)到，P(x)實(shí)際上并不包含Q(x)，并提出了x有可能是負(fù)數(shù)偶數(shù)，「不排除存在其他給定條件的模型」。

其實(shí)不然，一個(gè)反模型（countermodel）必須滿足所有給定的條件，同時(shí)證偽結(jié)論。

此外，僅僅幾句話之后， GPT-4就聲稱P(x)在給定的解釋下確實(shí)蘊(yùn)含Q(x)，這與它自己之前的說法相矛盾。

說明， GPT-4還會(huì)出現(xiàn)內(nèi)部不一致的問題。

5.簡(jiǎn)單量詞語(yǔ)義

請(qǐng)看下面三個(gè)句子：

1. [forall x . P(x) ==> Q(x)]

2. [exists x . P(x)]

3. [exists x . ～ Q(x)]

請(qǐng)證偽或證明以下主張：這三個(gè)句子是共同可滿足的。

顯然，這三個(gè)句子都是共同可滿足的，一個(gè)簡(jiǎn)單的模型是具有P(a1)、Q(a1)、?P(a2) 和 ?Q(a2)的域{a1, a2}，然而GPT-4得出的結(jié)論確與之相反。

6. 簡(jiǎn)單圖著色

首先考慮一個(gè)沒有解決方案的圖著色問題。

不難發(fā)現(xiàn)，對(duì)于這個(gè)問題中描述的圖形，兩種顏色是不足以滿足問題中描述的圖（例如，頂點(diǎn)0、2和4形成了一個(gè)簇，因此至少需要3種顏色）。

在這個(gè)簡(jiǎn)短的輸出中，出現(xiàn)大量驚嚇下巴的錯(cuò)誤。

GPT-4一開始就謊稱圖形是完全的（顯然不是，例如頂點(diǎn)2和3之間沒有邊）。

此外，顯而易見的是，如果圖形真是完全的，那么就不可能用2種顏色來(lái)著色，因?yàn)橐粋€(gè)有6個(gè)頂點(diǎn)的完全圖形至少需要6種顏色。

換句話說，GPT-4的說法不僅是錯(cuò)誤的，而且是前后矛盾的：一會(huì)兒告訴我們（錯(cuò)誤）這6頂點(diǎn)圖形是完全的，這意味著不可能用2種顏色給它著色，一會(huì)兒又提供了一種雙色「解決方案」。

值得注意的是，GPT-4之所以表現(xiàn)如此糟糕，并不是因?yàn)樗鼪]有掌握足夠的圖形知識(shí)或數(shù)據(jù)。

當(dāng)研究人員要求GPT-4對(duì)「完全圖」的了解時(shí)，它滔滔不絕地說出了「完全圖」的正確定義，以及一長(zhǎng)串關(guān)于K_n（有n個(gè)頂點(diǎn)的完全圖）的結(jié)果。

顯然，GPT-4 已經(jīng)記住了所有這些信息，但卻無(wú)法在新條件中應(yīng)用。

7. 子集和

S = {2, 8, 6, 32, 22, 44, 28, 12, 18, 10, 14}。那么S有多少個(gè)子集的總和是37？

這個(gè)問題中，S的子集都是偶數(shù)，而偶數(shù)之和不可能是奇數(shù)，因此答案為0。

然而，GPT-4沒有停下來(lái)考慮S包含的內(nèi)容，而是反射性地生成它認(rèn)為對(duì)這個(gè)問題合適的答案，然后繼續(xù)「幻化」出一個(gè)答案「4」。

8.初級(jí)離散數(shù)學(xué)

告訴GPT-4 A × B代表集合A和B的笛卡爾積、從A到B的關(guān)系R是A × B的子集，以及&代表集合交集之后要求它證明或證偽：

其中R1和R2是從A到B的二元關(guān)系，dom(R)表示二元關(guān)系R的域。

需要子集關(guān)系在(2)的兩個(gè)方向上都成立，但它只在從左到右的方向上成立。另一個(gè)方向的反例很容易找到（例如，取A = {(1, 2)} 和 B = {(1,3)}）。

然而，GPT-4卻推斷這是成立的，顯然不正確。

9.簡(jiǎn)單安排計(jì)劃

在時(shí)間安排問題上，GPT-4同樣出錯(cuò)了。

上下滑動(dòng)查看全部

10.羅素悖論

羅素理發(fā)師悖論是指，存在一個(gè)理發(fā)師b，他為且僅為那些不給自己刮胡子的人刮胡子。

這句話的否定是一個(gè)同義反復(fù)，很容易用一階邏輯推導(dǎo)出來(lái)。

如果我們把R(a,b)理解為a被b刮胡子，那么我們就可以提出這個(gè)同義反復(fù)，并要求GPT-4證明或反證它，如下面prompt所示：

如果存在這樣一個(gè)理發(fā)師x，那么對(duì)于所有y，我們將有R(y,x) <==> ～ R(y,y)，因此用x代替y將得到R(x，x) <==> ～ R(x,x)，這是矛盾的。

GPT-4對(duì)所給句子的結(jié)構(gòu)和需要做的事情的理解無(wú)可挑剔。然而，隨后的案例分析卻糊里糊涂。

11.積木世界

這是一個(gè)簡(jiǎn)單的推理任務(wù)，需要對(duì)倒數(shù)第三個(gè)積木B3進(jìn)行案例分析。

首先，B3要么是綠色的，要么不是。

如果是綠色的，那么B3就在非綠色積木B4的上面，所以結(jié)論成立。

如果不是，那么從上數(shù)的第二個(gè)綠色積木B2，就在非綠色積木B3上面，因此結(jié)論仍然成立。

然而，結(jié)果顯示，GPT-4的表現(xiàn)并不理想。

有五個(gè)積木從上往下堆疊：
1. 從上往下數(shù)第二個(gè)積木是綠色的
2. 從上往下數(shù)第四個(gè)積木不是綠色的
在這些條件成立的情況下，證偽或證明以下結(jié)論：在一個(gè)非綠色積木的正上方，有一個(gè)綠色?積木。

首先它在證明猜想時(shí)，就已經(jīng)弄錯(cuò)了證明的策略——PT-4假定了兩種特殊情況來(lái)進(jìn)行推理。

此外，GPT-4在自己的推理中已經(jīng)得出了結(jié)論（雖然是錯(cuò)的），但在回答時(shí)仍然告訴用戶問題沒有被解決。而這體現(xiàn)的便是模型的內(nèi)部不一致性問題。

12.空間推理

這里作者選擇了一個(gè)現(xiàn)實(shí)世界中的方位問題：

GPT-4第一次給出的答案是右邊，但作者指出了它的錯(cuò)誤，雖然從地圖上來(lái)看，位于馬薩諸塞州的波士頓的確在南達(dá)科他州的右邊，但這里還有一個(gè)附加條件：身體的朝向是得克薩斯州。

這意味著波士頓在作者的左邊。

之后，GPT-4在回答波士頓與南達(dá)科他州高低位置時(shí)，出現(xiàn)了更嚴(yán)重的問題：它在同一個(gè)回答中給出了兩種矛盾的描述。

13.時(shí)間推理

作者在這里給出了一個(gè)比較簡(jiǎn)單的時(shí)間推理問題，但GPT-4的回答依舊一塌糊涂。

Tom和Nancy上班需要乘坐交通工具。Nancy的通勤時(shí)間大約為30~40分鐘，而Tom的通勤時(shí)間大約為40~50分鐘。上個(gè)周五，Nancy在早上8:10~8:20之間離家，而Tom在早上8:5~9:10之間到達(dá)工作地點(diǎn)。此外，Nancy在Tom離開家后到達(dá)工作地點(diǎn)，但不會(huì)超過20分鐘。你能否推斷出上個(gè)星期五，Tom和Nancy何時(shí)到達(dá)工作地點(diǎn)？

在梳理完問題中的信息后，GPT-4給出了它的推理過程：

「如果Tom在可能最晚的時(shí)間（上午8:20）離開家...」這句話一開篇就錯(cuò)了。

實(shí)際上，題目并沒有給出有關(guān)Tom最晚離開家的時(shí)間，而GPT-4將Nancy的時(shí)間（「Nancy在上午8:10-8:20之間離家」）誤用到了Tom身上。

同時(shí)，GPT-4給出的條件語(yǔ)句是混亂的，假設(shè)中包含了與結(jié)論（Nancy的到達(dá)時(shí)間）無(wú)關(guān)的信息（Tom）：「如果Tom在最晚時(shí)間（上午8:20）離開家，Nancy在她最晚時(shí)間（上午8:20）離開，她的通勤時(shí)間最多是40分鐘，Nancy最晚在上午9:00到達(dá)工作地點(diǎn)?！?

這應(yīng)該表述為：「如果Nancy在她最晚時(shí)間（上午8:20）離開，并且她的通勤時(shí)間最多是40分鐘，那么Nancy最晚會(huì)在上午9:00到達(dá)工作地點(diǎn)。」

接著，GPT-4錯(cuò)誤地推斷出以下內(nèi)容：「由于Tom的通勤時(shí)間最少為40分鐘，這意味著他最晚會(huì)在上午9:00到達(dá)工作地點(diǎn)?！?

這個(gè)結(jié)論顯而易見根本不成立。從已知的「Tom的通勤時(shí)間最少為40分鐘」這個(gè)事實(shí)中無(wú)法得出這個(gè)結(jié)論。

接下來(lái)的回答依舊是基于錯(cuò)誤地假設(shè)Tom最早離開時(shí)間是上午8:10的條件（再次，這個(gè)出發(fā)時(shí)間是Nancy的，不是Tom的）。

然后它聲稱Nancy到達(dá)時(shí)間是8:45，這與早上8:10離家，不超過20分鐘條件不符合。

最后，它錯(cuò)誤地得出結(jié)論Tom和Nancy都在8:50和9:00之間到達(dá)。

在推理的過程中，GPT-4屢次出現(xiàn)了將信息張冠李戴的情況，最后給出的答案也是基于錯(cuò)誤條件得出的錯(cuò)誤回答。

14. 謀殺還是自殺？

作者構(gòu)思了一個(gè)邏輯謎題，列出了9個(gè)條件要求GPT-4找出真正殺害Agatha姨媽的兇手。

1. 住在Dreadbury Mansion的某人殺了Agatha姨媽。
2. Dreadbury Mansion中唯一的居住者是Agatha姨媽、管家和Charles。
3. 殺人犯總是討厭他的受害者，并且他的財(cái)富不會(huì)比受害者多。
4. Charles不討厭Agatha姨媽討厭的人。
5. Agatha姨媽討厭所有人，除了管家。
6. 管家討厭所有不比Agatha姨媽富有的人。
7. 管家討厭Agatha姨媽討厭的所有人。
8. 沒有人討厭所有人。
9. Agatha姨媽不是管家。

正確的答案是Agatha姨媽殺了自己。

首先，根據(jù)條件5，Agatha姨媽必須討厭她自己，因?yàn)樗憛捤谐斯芗乙酝獾娜恕?

因此，根據(jù)條件4，得出Charles不討厭她，所以他不可能殺了她。

根據(jù)條件5和7，管家不可能討厭他自己，因?yàn)槿绻憛捵约旱脑?，條件8就不成立了，他會(huì)討厭所有人。

根據(jù)條件6，得出管家比Agatha姨媽更富有，否則他會(huì)討厭自己，這與前面我們得出的他不討厭自己相矛盾。

根據(jù)條件3，管家也不會(huì)是兇手（第3個(gè)條件）。

在推理中，GPT-4正確地排除了Charles，但無(wú)法排除管家，并得出了錯(cuò)誤的結(jié)論：管家是兇手。

GPT-4做出的另一個(gè)關(guān)鍵錯(cuò)誤是：由于Agatha姨媽討厭所有除管家以外的人（條件5），這意味著她至少不討厭她自己。

這是一個(gè)奇怪的錯(cuò)誤，從第5個(gè)條件就可以得出Agatha姨媽討厭她自己。

同時(shí)，GPT-4又一次展示了反復(fù)出現(xiàn)的不一致性問題——幾乎在每一條回復(fù)中，GPT-4都聲稱推導(dǎo)出某個(gè)命題及其否定形式。

15.沃森選擇任務(wù)（Wason selection task）

沃森選擇任務(wù)是心理推理領(lǐng)域中的基本內(nèi)容。

在一月份的論文中，GPT-3.5就未能通過這個(gè)測(cè)試，本次研究中，GPT-4的表現(xiàn)依舊不理想。

桌上放著7張牌，每張牌一面寫著數(shù)字，另一面是單色色塊。這些牌的正面顯示的是50、16、紅色、黃色、23、綠色、30。
要判斷「如果一張牌正面顯示4的倍數(shù)，則背面顏色為黃色」這個(gè)命題的真假，你需要翻轉(zhuǎn)哪些牌?

這些回答顯示，GPT-4不理解條件語(yǔ)句的語(yǔ)義。當(dāng)GPT-4說卡片「50」和「30」必須翻開時(shí)，它似乎將條件誤認(rèn)為是充分必要條件。

而無(wú)論GPT-4的回答是對(duì)還是錯(cuò)，其內(nèi)部的說法都是不一致的。

16.熵

信息論的一個(gè)基本結(jié)論是：隨機(jī)向量Z的熵上界不超過組成Z的隨機(jī)變量的熵之和。

因此，下面問題的答案應(yīng)該是「在任何情況下都不會(huì)」。

17.簡(jiǎn)單編譯器的正確性

最后給GPT-4的推理問題是最具挑戰(zhàn)性的：證明一個(gè)簡(jiǎn)單表達(dá)式編譯器的正確性。

上下滑動(dòng)查看全部

但在這次測(cè)試中，GPT-4通過在表達(dá)式的抽象語(yǔ)法結(jié)構(gòu)上設(shè)置結(jié)構(gòu)歸納，正確地進(jìn)行了證明。

這可能是因?yàn)樗翱催^類似的證明，作者給出的例子是編程課程和教材中常見的練習(xí)類型。

然而，GPT-4還是會(huì)出現(xiàn)一些細(xì)節(jié)上錯(cuò)誤。

結(jié)論：推理能力至關(guān)重要，但GPT-4不會(huì)

鑒于GPT-4是目前能力最強(qiáng)的LLM，因此作者基于以上分析給出了三個(gè)主要結(jié)論：

1. 在軟件開發(fā)（或一般的科學(xué)和工程領(lǐng)域）中使用生成式AI，除了對(duì)于一些繁瑣的任務(wù)外（作為一種對(duì)知識(shí)密集型編碼問題的加速自動(dòng)補(bǔ)全），充滿了風(fēng)險(xiǎn)。在這些領(lǐng)域，規(guī)范性和正確性至關(guān)重要，而當(dāng)前的LLM無(wú)法達(dá)到這些標(biāo)準(zhǔn)。

2. 隨著LLM推理能力的不斷提高，嚴(yán)格的證明檢查會(huì)變得越來(lái)越重要。這種方法可以通過要求LLM將其推理形式化，或者通過訓(xùn)練其他LLM，來(lái)檢查用自然語(yǔ)言表達(dá)的推理。

3. 就目前而言，AI征服人類或人類利用AI達(dá)到邪惡目的這種反烏托邦情景，都極為牽強(qiáng)，甚至到了荒謬的地步。當(dāng)最先進(jìn)的AI系統(tǒng)連左右都分不清時(shí)（上述第12個(gè)問題），呼吁制定政策來(lái)保護(hù)人類免受它的傷害，往好里說是為時(shí)過早，往大了說就是對(duì)資源的浪費(fèi)。

不可避免地，一些人可能會(huì)說這些結(jié)果是「挑選數(shù)據(jù)」。但這是因?yàn)樗麄儗?duì)什么是挑選數(shù)據(jù)存在著誤解。根據(jù)相關(guān)命題的邏輯結(jié)構(gòu)和整體背景，挑選數(shù)據(jù)有時(shí)甚至是必要的。

通過對(duì)計(jì)算機(jī)程序進(jìn)行調(diào)試來(lái)發(fā)現(xiàn)和理解其弱點(diǎn)，試圖證偽科學(xué)理論，試駕新車，試圖找到一個(gè)假定的定理的反模型等等，從根本上來(lái)說都是「挑刺」。

舉個(gè)例子，比如你發(fā)現(xiàn)自己新買的汽車有一個(gè)輪胎漏氣，這時(shí)經(jīng)銷商就可以抗議稱你是在「挑選數(shù)據(jù)」。畢竟，就整輛車來(lái)說，輪胎的完好率高達(dá)75%。

同樣，科學(xué)、醫(yī)學(xué)和工程領(lǐng)域的應(yīng)用，尤其是軟件工程，都有嚴(yán)格的標(biāo)準(zhǔn)。

就像我們不想要一座在90%的情況下能立柱的橋梁一樣，我們需要對(duì)所有輸入都有效的排序算法，而不僅僅是大部分；我們需要購(gòu)物車每次都能收取正確的費(fèi)用，而不僅僅是大多數(shù)時(shí)間，等等。

而這些計(jì)算和推理密集型的應(yīng)用，與推薦引擎不同，它們必須非常可靠。

作者介紹

Konstantine Arkoudas

直到去年，Konstantine Arkoudas還是RPI認(rèn)知科學(xué)系的研究員，也是麻省理工學(xué)院CSAIL的研究員。

目前，他是Telcordia研究實(shí)驗(yàn)室的高級(jí)研究科學(xué)家，主要研究AI，以及在電信和網(wǎng)絡(luò)行業(yè)應(yīng)用正式方法解決現(xiàn)實(shí)世界的問題。

他曾在2000年獲得了MIT的計(jì)算機(jī)科學(xué)博士學(xué)位。在此之前，還獲得了計(jì)算機(jī)科學(xué)碩士學(xué)位，哲學(xué)碩士學(xué)位，以及計(jì)算機(jī)科學(xué)學(xué)士學(xué)位，輔修哲學(xué)。

大學(xué)數(shù)理化，GPT-4得分35.8%

UCLA的研究中，主要評(píng)估了GPT-4，以及GPT-3.5在數(shù)學(xué)、化學(xué)、物理方面的推理能力。

當(dāng)前，為了增強(qiáng)LLM解決數(shù)學(xué)等任務(wù)的能力，有人提出了思維連CoT策略，指導(dǎo)大模型逐步生成答案，從而更深入思考問題。

然而，即使這樣的方法有其特定的優(yōu)勢(shì)，也難以完全解決復(fù)雜的科學(xué)問題。

如下，是大學(xué)物理化學(xué)的一個(gè)示例問題，以及在兩種提示策略下生成的解決方案。

有CoT加持的GPT-4出現(xiàn)明顯的計(jì)算錯(cuò)誤，而提示用Python作為外部工具的GPT-4，也會(huì)誤解數(shù)學(xué)方程。

錯(cuò)誤標(biāo)記為紅色，更正內(nèi)容為紫色

對(duì)此，研究中引入了一個(gè)大學(xué)水平的科學(xué)問題基準(zhǔn)SCIBENCH。

其中，「開放數(shù)據(jù)集」包括從大學(xué)課程廣泛使用的教科書中收集的5個(gè)問題，涵蓋了基礎(chǔ)物理、熱力學(xué)、經(jīng)典力學(xué)、量子化學(xué)、物理化學(xué)、微積分、統(tǒng)計(jì)學(xué)和微分方程。

開放教科書問題摘要（包括問題數(shù)量的比例，以及有詳細(xì)解決方案的比例）

另一個(gè)是「封閉數(shù)據(jù)集」，為了模擬真實(shí)世界的評(píng)估，其中包含了計(jì)算機(jī)科學(xué)和數(shù)學(xué)三門大學(xué)課程的7套期中和期末考試題。

封閉考試數(shù)據(jù)集（包含每場(chǎng)考試中的問題實(shí)例數(shù)，以及考試中包含詳細(xì)解答的問題比例。另外，還有不同形式問題的比例，包括自由回答、多項(xiàng)選擇和真假答案。作為參考，括號(hào)中的數(shù)字表示問題的評(píng)分點(diǎn)。）

與現(xiàn)有基準(zhǔn)不同，SCIBENCH中的所有問題都是，開放式、自由回答的問題。

數(shù)據(jù)集中有了，研究重點(diǎn)評(píng)估了兩個(gè)具有代表性的LLM，GPT-3.5和GPT-4，并采用了不同的提示策略，包括CoT、零樣本學(xué)習(xí)、少樣本學(xué)習(xí)。

另外，研究人員還提示模型使用外部工具，比如Python和Wolfram語(yǔ)言。

實(shí)驗(yàn)結(jié)果表明，在沒有任何復(fù)雜提示、或使用外部工具的情況下，GPT-3.5和GPT-4在開放數(shù)據(jù)集中平均準(zhǔn)確率分別為10.62%和16.81%。

那么，在加入CoT和外部工具后，在同一數(shù)據(jù)集上最高準(zhǔn)確率也僅僅是35.8%。不過，相較之前，很大程度提高了準(zhǔn)確率。

開放數(shù)據(jù)集中準(zhǔn)確率的結(jié)果

在使用CoT提示+外部工具最強(qiáng)配置下，GPT-4在開放式數(shù)據(jù)集上取得了35.80%的平均分，在封閉數(shù)據(jù)集上取得了51.57%的平均分。

這些結(jié)果表明，在未來(lái)的LLM中，GPT-4有相當(dāng)大的改進(jìn)潛力。

考試數(shù)據(jù)集上零樣本學(xué)習(xí)下總分的實(shí)驗(yàn)結(jié)果

為了全面了解LLM在科學(xué)問題解決中的局限性，研究人員提出了一種全新的「自我完善」的方法，以發(fā)現(xiàn)LLM所做解答中的不足之處。

便是如下的「評(píng)估協(xié)議」。

首先，將正確的解決方案與LLM生成的解決方案進(jìn)行比較，并在人工標(biāo)注員的協(xié)助下，總結(jié)出成功解決科學(xué)問題所需的10項(xiàng)基本技能。

具體包括：邏輯分解和分析能力；識(shí)別假設(shè)；空間感知；因果推理；問題演繹；抽象推理；科學(xué)素養(yǎng)；代碼轉(zhuǎn)換；邏輯推理；計(jì)算能力。

隨后，團(tuán)隊(duì)采用了一種由LLM驅(qū)動(dòng)的自我評(píng)價(jià)方法，對(duì)每個(gè)實(shí)驗(yàn)配置下基準(zhǔn)LLM所做的解決方案中，缺乏的技能進(jìn)行自動(dòng)分類。

6種設(shè)置下GPT-3.5在文本數(shù)據(jù)集上的錯(cuò)誤概況，揭示了其10種基本解決問題能力的缺陷分布

最后，通過分析發(fā)現(xiàn)：

(1) 雖然CoT顯著提高了計(jì)算能力，但在其他方面的效果較差；

(2) 使用外部工具的提示可能會(huì)損害其他基本技能；

(3) 少樣本學(xué)習(xí)并不能普遍提高科學(xué)問題解決能力。

總之，研究結(jié)果表明，當(dāng)前大型語(yǔ)言模型在解決問題能力方面依舊很弱，并且在各種工具幫助下，依舊存在局限性。

參考資料：

https://www.preprints.org/manuscript/202308.0148/v2

https://arxiv.org/pdf/2307.10635.pdf

為什么OpenAI不能被計(jì)劃？

關(guān)鍵詞：

猜你喜歡

有鋰走遍天下，四川“天價(jià)鋰礦”的背后……

撰文涂彥平編輯張南設(shè)計(jì) 師超備受關(guān)注的兩樁鋰礦競(jìng)拍都已落槌，最終

2023-08-15 07:33:10

通脹數(shù)據(jù)喜憂參半，貴金屬連續(xù)回落，會(huì)議紀(jì)要將公布，金價(jià)還能跌？

(一)本周觀點(diǎn)在全球經(jīng)濟(jì)衰退預(yù)期不斷升溫疊加地緣政治沖突短期難以緩和

2023-08-15 07:32:47

特斯拉降價(jià)嚇壞投資人比亞迪董事長(zhǎng)王傳福凈資產(chǎn)縮水15億美元

騰訊汽車訊8月15日消息，受投資者擔(dān)心特斯拉引發(fā)新一輪價(jià)格戰(zhàn)，紛紛拋

2023-08-15 07:22:38

猜你喜歡

有鋰走遍天下，四川“天價(jià)鋰礦”的背后……

通脹數(shù)據(jù)喜憂參半，貴金屬連續(xù)回落，會(huì)議紀(jì)要將公布，金價(jià)還能跌？

特斯拉降價(jià)嚇壞投資人比亞迪董事長(zhǎng)王傳福凈資產(chǎn)縮水15億美元

最新資訊

推薦

海灣資源(GURE.US)：2023年Q2財(cái)報(bào)實(shí)現(xiàn)營(yíng)收800.578萬(wàn)美元

磷酸鐵鋰板塊8月14日跌2.78%，比亞迪領(lǐng)跌，主力資金凈流出30.03億元

小心！已有人上當(dāng)受騙！警惕政策扶持結(jié)清花唄欠款騙局

炒面的做法?

熱點(diǎn)

行情

華為云與汽車之家聯(lián)合舉辦汽車技術(shù)高峰論壇

嘉戎技術(shù)跌5.38% IPO募11億扣非連降3年安信證券保薦

愛克股份跌5.23% IPO募10.9億東興證券保薦

午評(píng)：滬指跌0.13% 汽車整車板塊漲幅居前

經(jīng)濟(jì)

香港明星足球隊(duì)與多彩貴州聯(lián)隊(duì)友誼賽在貴陽(yáng)舉行

日化智云參加上海洗護(hù)用品展，助力洗滌行業(yè)個(gè)性化產(chǎn)品定制

康騰神泉亮相中國(guó)飲水高峰論壇，或成為飲用水領(lǐng)域典型樣本

加入康騰神泉，開啟財(cái)富之門

猜你喜歡

有鋰走遍天下，四川“天價(jià)鋰礦”的背后……

通脹數(shù)據(jù)喜憂參半，貴金屬連續(xù)回落，會(huì)議紀(jì)要將公布，金價(jià)還能跌？

特斯拉降價(jià)嚇壞投資人 比亞迪董事長(zhǎng)王傳福凈資產(chǎn)縮水15億美元

最新資訊

推薦

海灣資源(GURE.US)：2023年Q2財(cái)報(bào)實(shí)現(xiàn)營(yíng)收800.578萬(wàn)美元

磷酸鐵鋰板塊8月14日跌2.78%，比亞迪領(lǐng)跌，主力資金凈流出30.03億元

小心！已有人上當(dāng)受騙！警惕政策扶持結(jié)清花唄欠款騙局

炒面的做法?

熱點(diǎn)

行情

華為云與汽車之家聯(lián)合舉辦汽車技術(shù)高峰論壇

嘉戎技術(shù)跌5.38% IPO募11億扣非連降3年安信證券保薦

愛克股份跌5.23% IPO募10.9億東興證券保薦

午評(píng)：滬指跌0.13% 汽車整車板塊漲幅居前

經(jīng)濟(jì)

香港明星足球隊(duì)與多彩貴州聯(lián)隊(duì)友誼賽在貴陽(yáng)舉行

日化智云參加上海洗護(hù)用品展，助力洗滌行業(yè)個(gè)性化產(chǎn)品定制

康騰神泉亮相中國(guó)飲水高峰論壇，或成為飲用水領(lǐng)域典型樣本

加入康騰神泉，開啟財(cái)富之門

有鋰走遍天下，四川“天價(jià)鋰礦”的背后……

通脹數(shù)據(jù)喜憂參半，貴金屬連續(xù)回落，會(huì)議紀(jì)要將公布，金價(jià)還能跌？

特斯拉降價(jià)嚇壞投資人比亞迪董事長(zhǎng)王傳福凈資產(chǎn)縮水15億美元

磷酸鐵鋰板塊8月14日跌2.78%，比亞迪領(lǐng)跌，主力資金凈流出30.03億元

小心！已有人上當(dāng)受騙！警惕政策扶持結(jié)清花唄欠款騙局

日化智云參加上海洗護(hù)用品展，助力洗滌行業(yè)個(gè)性化產(chǎn)品定制

康騰神泉亮相中國(guó)飲水高峰論壇，或成為飲用水領(lǐng)域典型樣本

加入康騰神泉，開啟財(cái)富之門