【資料圖】
新智元報道
編輯:編輯部
【新智元導(dǎo)讀】「地表最強(qiáng)」GPT-4在推理問題中接連出錯!MIT校友,以及UCLA華人一作的最新研究引眾多網(wǎng)友圍觀。
GPT-4根本不會推理!
近來,有兩篇研究稱,GPT-4在推理方面表現(xiàn)不盡人意。
來自MIT的校友Konstantine Arkoudas,在21種不同類型推理集中,對GPT-4進(jìn)行了評估。
然后,對GPT-4在這些問題上的表現(xiàn)進(jìn)行了詳細(xì)的定性分析。
研究發(fā)現(xiàn),GPT-4偶爾會展現(xiàn)出「最強(qiáng)大腦」的天賦,但目前來看,GPT-4完全不具備推理能力。
論文地址:https://www.preprints.org/manuscript/202308.0148/v2
研究一出,引來眾多網(wǎng)友圍觀。
馬庫斯表示,「如果這是真的——正如我早就說過的那樣——我們離AGI還差得遠(yuǎn)呢。我們可能需要進(jìn)行大量的重新校準(zhǔn):沒有推理就不可能有 AGI」。
而另一篇來自UCLA和華盛頓大學(xué)的研究也發(fā)現(xiàn),GPT-4,以及GPT-3.5在大學(xué)的數(shù)學(xué)、物理、化學(xué)任務(wù)的推理上,表現(xiàn)不佳。
論文地址:https://arxiv.org/pdf/2307.10635.pdf
研究人員引入了一個大學(xué)科學(xué)問題解決基礎(chǔ)SCIBENCH,其中包含2個數(shù)據(jù)集:開放數(shù)據(jù)集,以及封閉數(shù)據(jù)集。
通過對GPT-4和GPT-3.5采用不同提示策略進(jìn)行深入研究,結(jié)果顯示,GPT-4成績平均總分僅為35.8%。
這項研究同樣再次引起馬庫斯的關(guān)注:
關(guān)于數(shù)學(xué)、化學(xué)和物理推理的系統(tǒng)調(diào)查,結(jié)果顯示,目前的LLM無法提供令人滿意的性能......沒有一種提示策略明顯優(yōu)于其他策略。
下面我們就來具體看看,GPT-4如何在21個問題集,數(shù)學(xué)、物理、化學(xué)上推理慘敗的。
21個問題集,GPT-4全翻車
不過,在看GPT-4回答問題之前,作者給出了一個注意事項:
GPT-4是一個非確定性系統(tǒng),即使參數(shù)設(shè)置相同,在不同的運(yùn)行中也可能產(chǎn)生不同的答案。
而以下的測試交流都是逐字記錄的,根據(jù)作者的經(jīng)驗,文中討論的GPT-4出錯的地方往往具有魯棒性。
1.簡單算術(shù)
能夠進(jìn)行基本運(yùn)算,是推理的必要條件。
但是,GPT-4仍然無法可靠地執(zhí)行加法、乘法等基本算術(shù)運(yùn)算。
比如,讓GPT-4在1381和1453之間隨機(jī)選擇兩個數(shù)字相乘,并給出結(jié)果。
GPT-4選擇了1405,以及1421,但是最后給出的結(jié)果顯然是錯的。因為1405×1421=1996505。
2.簡單計數(shù)
雖然具體計數(shù)并不一定是一種推理活動 ,但它肯定是任何具有一般能力推理系統(tǒng)的必備條件。
在這里,給GPT-4一個命題變量,并在它前面加上27個否定符號,要求它計算否定符號的個數(shù)。
對于我們來講,這簡直輕而易舉,尤其是否定符號是間隔5個寫成的,并且有5組,最后一對否定符號緊隨其后。
然而,GPT-4卻給出了「28個」答案。
3.(醫(yī)學(xué))常識
當(dāng)前,我們可以將常識性論證視為,從給定信息加上未說明的條件(默認(rèn)的、普遍接受的背景知識)中得出的簡單推理。
在這種特殊情況下,常識性知識就是「人在死前是活著的,死后就不會再活著」這樣的命題。
比如,當(dāng)你問GPT-4:Mable上午9點的心率為75 bpm,下午7點的血壓為120/80。她于晚上11點死亡。她中午還活著嗎?
GPT-4竟回答:根據(jù)所提供的信息,無法確定Mable中午是否還活著。
但明顯根據(jù)給定的信息,常識性推斷(不用想)直接得出結(jié)論了。
4.初級邏輯
如果P(x)包含Q(x),而Q(a)不成立,那么我們就可以根據(jù)模型推論出P(a)也不成立(因為如果P(a)成立,那么Q(a)也會成立)。
這是一個最基本的同義反復(fù),但GPT-4卻完全提出一個反模型:
值得注意的是,GPT-4認(rèn)識到,P(x)實際上并不包含Q(x),并提出了x有可能是負(fù)數(shù)偶數(shù),「不排除存在其他給定條件的模型」。
其實不然,一個反模型(countermodel)必須滿足所有給定的條件,同時證偽結(jié)論。
此外,僅僅幾句話之后, GPT-4就聲稱P(x)在給定的解釋下確實蘊(yùn)含Q(x),這與它自己之前的說法相矛盾。
說明, GPT-4還會出現(xiàn)內(nèi)部不一致的問題。
5.簡單量詞語義
請看下面三個句子:
1. [forall x . P(x) ==> Q(x)]
2. [exists x . P(x)]
3. [exists x . ~ Q(x)]
請證偽或證明以下主張:這三個句子是共同可滿足的。
顯然,這三個句子都是共同可滿足的,一個簡單的模型是具有P(a1)、Q(a1)、?P(a2) 和 ?Q(a2)的域{a1, a2},然而GPT-4得出的結(jié)論確與之相反。
6. 簡單圖著色
首先考慮一個沒有解決方案的圖著色問題。
不難發(fā)現(xiàn),對于這個問題中描述的圖形,兩種顏色是不足以滿足問題中描述的圖(例如,頂點0、2和4形成了一個簇,因此至少需要3種顏色)。
在這個簡短的輸出中,出現(xiàn)大量驚嚇下巴的錯誤。
GPT-4一開始就謊稱圖形是完全的(顯然不是,例如頂點2和3之間沒有邊)。
此外,顯而易見的是,如果圖形真是完全的,那么就不可能用2種顏色來著色,因為一個有6個頂點的完全圖形至少需要6種顏色。
換句話說,GPT-4的說法不僅是錯誤的,而且是前后矛盾的:一會兒告訴我們(錯誤)這6頂點圖形是完全的,這意味著不可能用2種顏色給它著色,一會兒又提供了一種雙色「解決方案」。
值得注意的是,GPT-4之所以表現(xiàn)如此糟糕,并不是因為它沒有掌握足夠的圖形知識或數(shù)據(jù)。
當(dāng)研究人員要求GPT-4對「完全圖」的了解時,它滔滔不絕地說出了「完全圖」的正確定義,以及一長串關(guān)于K_n(有n個頂點的完全圖)的結(jié)果。
顯然,GPT-4 已經(jīng)記住了所有這些信息,但卻無法在新條件中應(yīng)用。
7. 子集和
S = {2, 8, 6, 32, 22, 44, 28, 12, 18, 10, 14}。那么S有多少個子集的總和是37?
這個問題中,S的子集都是偶數(shù),而偶數(shù)之和不可能是奇數(shù),因此答案為0。
然而,GPT-4沒有停下來考慮S包含的內(nèi)容,而是反射性地生成它認(rèn)為對這個問題合適的答案,然后繼續(xù)「幻化」出一個答案「4」。
8.初級離散數(shù)學(xué)
告訴GPT-4 A × B代表集合A和B的笛卡爾積、從A到B的關(guān)系R是A × B的子集,以及&代表集合交集之后要求它證明或證偽:
其中R1和R2是從A到B的二元關(guān)系,dom(R)表示二元關(guān)系R的域。
需要子集關(guān)系在(2)的兩個方向上都成立,但它只在從左到右的方向上成立。另一個方向的反例很容易找到(例如,取A = {(1, 2)} 和 B = {(1,3)})。
然而,GPT-4卻推斷這是成立的,顯然不正確。
9.簡單安排計劃
在時間安排問題上,GPT-4同樣出錯了。
上下滑動查看全部
10.羅素悖論
羅素理發(fā)師悖論是指,存在一個理發(fā)師b,他為且僅為那些不給自己刮胡子的人刮胡子。
這句話的否定是一個同義反復(fù),很容易用一階邏輯推導(dǎo)出來。
如果我們把R(a,b)理解為a被b刮胡子,那么我們就可以提出這個同義反復(fù),并要求GPT-4證明或反證它,如下面prompt所示:
如果存在這樣一個理發(fā)師x,那么對于所有y,我們將有R(y,x) <==> ~ R(y,y),因此用x代替y將得到R(x,x) <==> ~ R(x,x),這是矛盾的。
GPT-4對所給句子的結(jié)構(gòu)和需要做的事情的理解無可挑剔。然而,隨后的案例分析卻糊里糊涂。
11.積木世界
這是一個簡單的推理任務(wù),需要對倒數(shù)第三個積木B3進(jìn)行案例分析。
首先,B3要么是綠色的,要么不是。
如果是綠色的,那么B3就在非綠色積木B4的上面,所以結(jié)論成立。
如果不是,那么從上數(shù)的第二個綠色積木B2,就在非綠色積木B3上面,因此結(jié)論仍然成立。
然而,結(jié)果顯示,GPT-4的表現(xiàn)并不理想。
有五個積木從上往下堆疊:
1. 從上往下數(shù)第二個積木是綠色的
2. 從上往下數(shù)第四個積木不是綠色的
在這些條件成立的情況下,證偽或證明以下結(jié)論:在一個非綠色積木的正上方,有一個綠色?積木。
首先它在證明猜想時,就已經(jīng)弄錯了證明的策略——PT-4假定了兩種特殊情況來進(jìn)行推理。
此外,GPT-4在自己的推理中已經(jīng)得出了結(jié)論(雖然是錯的),但在回答時仍然告訴用戶問題沒有被解決。而這體現(xiàn)的便是模型的內(nèi)部不一致性問題。
12.空間推理
這里作者選擇了一個現(xiàn)實世界中的方位問題:
GPT-4第一次給出的答案是右邊,但作者指出了它的錯誤,雖然從地圖上來看,位于馬薩諸塞州的波士頓的確在南達(dá)科他州的右邊,但這里還有一個附加條件:身體的朝向是得克薩斯州。
這意味著波士頓在作者的左邊。
之后,GPT-4在回答波士頓與南達(dá)科他州高低位置時,出現(xiàn)了更嚴(yán)重的問題:它在同一個回答中給出了兩種矛盾的描述。
13.時間推理
作者在這里給出了一個比較簡單的時間推理問題,但GPT-4的回答依舊一塌糊涂。
Tom和Nancy上班需要乘坐交通工具。Nancy的通勤時間大約為30~40分鐘,而Tom的通勤時間大約為40~50分鐘。上個周五,Nancy在早上8:10~8:20之間離家,而Tom在早上8:5~9:10之間到達(dá)工作地點。此外,Nancy在Tom離開家后到達(dá)工作地點,但不會超過20分鐘。你能否推斷出上個星期五,Tom和Nancy何時到達(dá)工作地點?
在梳理完問題中的信息后,GPT-4給出了它的推理過程:
「如果Tom在可能最晚的時間(上午8:20)離開家...」 這句話一開篇就錯了。
實際上,題目并沒有給出有關(guān)Tom最晚離開家的時間,而GPT-4將Nancy的時間(「Nancy在上午8:10-8:20之間離家」)誤用到了Tom身上。
同時,GPT-4給出的條件語句是混亂的,假設(shè)中包含了與結(jié)論(Nancy的到達(dá)時間)無關(guān)的信息(Tom):「如果Tom在最晚時間(上午8:20)離開家,Nancy在她最晚時間(上午8:20)離開,她的通勤時間最多是40分鐘,Nancy最晚在上午9:00到達(dá)工作地點?!?
這應(yīng)該表述為:「如果Nancy在她最晚時間(上午8:20)離開,并且她的通勤時間最多是40分鐘,那么Nancy最晚會在上午9:00到達(dá)工作地點?!?
接著,GPT-4錯誤地推斷出以下內(nèi)容:「由于Tom的通勤時間最少為40分鐘,這意味著他最晚會在上午9:00到達(dá)工作地點。」
這個結(jié)論顯而易見根本不成立。從已知的「Tom的通勤時間最少為40分鐘」這個事實中無法得出這個結(jié)論。
接下來的回答依舊是基于錯誤地假設(shè)Tom最早離開時間是上午8:10的條件(再次,這個出發(fā)時間是Nancy的,不是Tom的)。
然后它聲稱Nancy到達(dá)時間是8:45,這與早上8:10離家,不超過20分鐘條件不符合。
最后,它錯誤地得出結(jié)論Tom和Nancy都在8:50和9:00之間到達(dá)。
在推理的過程中,GPT-4屢次出現(xiàn)了將信息張冠李戴的情況,最后給出的答案也是基于錯誤條件得出的錯誤回答。
14. 謀殺還是自殺?
作者構(gòu)思了一個邏輯謎題,列出了9個條件要求GPT-4找出真正殺害Agatha姨媽的兇手。
1. 住在Dreadbury Mansion的某人殺了Agatha姨媽。
2. Dreadbury Mansion中唯一的居住者是Agatha姨媽、管家和Charles。
3. 殺人犯總是討厭他的受害者,并且他的財富不會比受害者多。
4. Charles不討厭Agatha姨媽討厭的人。
5. Agatha姨媽討厭所有人,除了管家。
6. 管家討厭所有不比Agatha姨媽富有的人。
7. 管家討厭Agatha姨媽討厭的所有人。
8. 沒有人討厭所有人。
9. Agatha姨媽不是管家。
正確的答案是Agatha姨媽殺了自己。
首先,根據(jù)條件5,Agatha姨媽必須討厭她自己,因為她討厭所有除了管家以外的人。
因此,根據(jù)條件4,得出Charles不討厭她,所以他不可能殺了她。
根據(jù)條件5和7,管家不可能討厭他自己,因為如果他討厭自己的話,條件8就不成立了,他會討厭所有人。
根據(jù)條件6,得出管家比Agatha姨媽更富有,否則他會討厭自己,這與前面我們得出的他不討厭自己相矛盾。
根據(jù)條件3,管家也不會是兇手(第3個條件)。
在推理中,GPT-4正確地排除了Charles,但無法排除管家,并得出了錯誤的結(jié)論:管家是兇手。
GPT-4做出的另一個關(guān)鍵錯誤是:由于Agatha姨媽討厭所有除管家以外的人(條件5),這意味著她至少不討厭她自己。
這是一個奇怪的錯誤,從第5個條件就可以得出Agatha姨媽討厭她自己。
同時,GPT-4又一次展示了反復(fù)出現(xiàn)的不一致性問題——幾乎在每一條回復(fù)中,GPT-4都聲稱推導(dǎo)出某個命題及其否定形式。
15.沃森選擇任務(wù)(Wason selection task)
沃森選擇任務(wù)是心理推理領(lǐng)域中的基本內(nèi)容。
在一月份的論文中,GPT-3.5就未能通過這個測試,本次研究中,GPT-4的表現(xiàn)依舊不理想。
桌上放著7張牌,每張牌一面寫著數(shù)字,另一面是單色色塊。這些牌的正面顯示的是50、16、紅色、黃色、23、綠色、30。
要判斷「如果一張牌正面顯示4的倍數(shù),則背面顏色為黃色」這個命題的真假,你需要翻轉(zhuǎn)哪些牌?
這些回答顯示,GPT-4不理解條件語句的語義。當(dāng)GPT-4說卡片「50」和「30」必須翻開時,它似乎將條件誤認(rèn)為是充分必要條件。
而無論GPT-4的回答是對還是錯,其內(nèi)部的說法都是不一致的。
16.熵
信息論的一個基本結(jié)論是:隨機(jī)向量Z的熵上界不超過組成Z的隨機(jī)變量的熵之和。
因此,下面問題的答案應(yīng)該是「在任何情況下都不會」。
17.簡單編譯器的正確性
最后給GPT-4的推理問題是最具挑戰(zhàn)性的:證明一個簡單表達(dá)式編譯器的正確性。
上下滑動查看全部
但在這次測試中,GPT-4通過在表達(dá)式的抽象語法結(jié)構(gòu)上設(shè)置結(jié)構(gòu)歸納,正確地進(jìn)行了證明。
這可能是因為它之前看過類似的證明,作者給出的例子是編程課程和教材中常見的練習(xí)類型。
然而,GPT-4還是會出現(xiàn)一些細(xì)節(jié)上錯誤。
結(jié)論:推理能力至關(guān)重要,但GPT-4不會鑒于GPT-4是目前能力最強(qiáng)的LLM,因此作者基于以上分析給出了三個主要結(jié)論:
1. 在軟件開發(fā)(或一般的科學(xué)和工程領(lǐng)域)中使用生成式AI,除了對于一些繁瑣的任務(wù)外(作為一種對知識密集型編碼問題的加速自動補(bǔ)全),充滿了風(fēng)險。在這些領(lǐng)域,規(guī)范性和正確性至關(guān)重要,而當(dāng)前的LLM無法達(dá)到這些標(biāo)準(zhǔn)。
2. 隨著LLM推理能力的不斷提高,嚴(yán)格的證明檢查會變得越來越重要。這種方法可以通過要求LLM將其推理形式化,或者通過訓(xùn)練其他LLM,來檢查用自然語言表達(dá)的推理。
3. 就目前而言,AI征服人類或人類利用AI達(dá)到邪惡目的這種反烏托邦情景,都極為牽強(qiáng),甚至到了荒謬的地步。當(dāng)最先進(jìn)的AI系統(tǒng)連左右都分不清時(上述第12個問題),呼吁制定政策來保護(hù)人類免受它的傷害,往好里說是為時過早,往大了說就是對資源的浪費。
不可避免地,一些人可能會說這些結(jié)果是「挑選數(shù)據(jù)」。但這是因為他們對什么是挑選數(shù)據(jù)存在著誤解。根據(jù)相關(guān)命題的邏輯結(jié)構(gòu)和整體背景,挑選數(shù)據(jù)有時甚至是必要的。
通過對計算機(jī)程序進(jìn)行調(diào)試來發(fā)現(xiàn)和理解其弱點,試圖證偽科學(xué)理論,試駕新車,試圖找到一個假定的定理的反模型等等,從根本上來說都是「挑刺」。
舉個例子,比如你發(fā)現(xiàn)自己新買的汽車有一個輪胎漏氣,這時經(jīng)銷商就可以抗議稱你是在「挑選數(shù)據(jù)」。畢竟,就整輛車來說,輪胎的完好率高達(dá)75%。
同樣,科學(xué)、醫(yī)學(xué)和工程領(lǐng)域的應(yīng)用,尤其是軟件工程,都有嚴(yán)格的標(biāo)準(zhǔn)。
就像我們不想要一座在90%的情況下能立柱的橋梁一樣,我們需要對所有輸入都有效的排序算法,而不僅僅是大部分;我們需要購物車每次都能收取正確的費用,而不僅僅是大多數(shù)時間,等等。
而這些計算和推理密集型的應(yīng)用,與推薦引擎不同,它們必須非??煽俊?
作者介紹Konstantine Arkoudas
直到去年,Konstantine Arkoudas還是RPI認(rèn)知科學(xué)系的研究員,也是麻省理工學(xué)院CSAIL的研究員。
目前,他是Telcordia研究實驗室的高級研究科學(xué)家,主要研究AI,以及在電信和網(wǎng)絡(luò)行業(yè)應(yīng)用正式方法解決現(xiàn)實世界的問題。
他曾在2000年獲得了MIT的計算機(jī)科學(xué)博士學(xué)位。在此之前,還獲得了計算機(jī)科學(xué)碩士學(xué)位,哲學(xué)碩士學(xué)位,以及計算機(jī)科學(xué)學(xué)士學(xué)位,輔修哲學(xué)。
大學(xué)數(shù)理化,GPT-4得分35.8%
UCLA的研究中,主要評估了GPT-4,以及GPT-3.5在數(shù)學(xué)、化學(xué)、物理方面的推理能力。
當(dāng)前,為了增強(qiáng)LLM解決數(shù)學(xué)等任務(wù)的能力,有人提出了思維連CoT策略,指導(dǎo)大模型逐步生成答案,從而更深入思考問題。
然而,即使這樣的方法有其特定的優(yōu)勢,也難以完全解決復(fù)雜的科學(xué)問題。
如下,是大學(xué)物理化學(xué)的一個示例問題,以及在兩種提示策略下生成的解決方案。
有CoT加持的GPT-4出現(xiàn)明顯的計算錯誤,而提示用Python作為外部工具的GPT-4,也會誤解數(shù)學(xué)方程。
錯誤標(biāo)記為紅色,更正內(nèi)容為紫色
對此,研究中引入了一個大學(xué)水平的科學(xué)問題基準(zhǔn)SCIBENCH。
其中,「開放數(shù)據(jù)集」包括從大學(xué)課程廣泛使用的教科書中收集的5個問題,涵蓋了基礎(chǔ)物理、熱力學(xué)、經(jīng)典力學(xué)、量子化學(xué)、物理化學(xué)、微積分、統(tǒng)計學(xué)和微分方程。
開放教科書問題摘要(包括問題數(shù)量的比例,以及有詳細(xì)解決方案的比例)
另一個是「封閉數(shù)據(jù)集」,為了模擬真實世界的評估,其中包含了計算機(jī)科學(xué)和數(shù)學(xué)三門大學(xué)課程的7套期中和期末考試題。
封閉考試數(shù)據(jù)集(包含每場考試中的問題實例數(shù),以及考試中包含詳細(xì)解答的問題比例。另外,還有不同形式問題的比例,包括自由回答、多項選擇和真假答案。作為參考,括號中的數(shù)字表示問題的評分點。)
與現(xiàn)有基準(zhǔn)不同,SCIBENCH中的所有問題都是,開放式、自由回答的問題。
數(shù)據(jù)集中有了,研究重點評估了兩個具有代表性的LLM,GPT-3.5和GPT-4,并采用了不同的提示策略,包括CoT、零樣本學(xué)習(xí)、少樣本學(xué)習(xí)。
另外,研究人員還提示模型使用外部工具,比如Python和Wolfram語言。
實驗結(jié)果表明,在沒有任何復(fù)雜提示、或使用外部工具的情況下,GPT-3.5和GPT-4在開放數(shù)據(jù)集中平均準(zhǔn)確率分別為10.62%和16.81%。
那么,在加入CoT和外部工具后,在同一數(shù)據(jù)集上最高準(zhǔn)確率也僅僅是35.8%。不過,相較之前,很大程度提高了準(zhǔn)確率。
開放數(shù)據(jù)集中準(zhǔn)確率的結(jié)果
在使用CoT提示+外部工具最強(qiáng)配置下,GPT-4在開放式數(shù)據(jù)集上取得了35.80%的平均分,在封閉數(shù)據(jù)集上取得了51.57%的平均分。
這些結(jié)果表明,在未來的LLM中,GPT-4有相當(dāng)大的改進(jìn)潛力。
考試數(shù)據(jù)集上零樣本學(xué)習(xí)下總分的實驗結(jié)果
為了全面了解LLM在科學(xué)問題解決中的局限性,研究人員提出了一種全新的「自我完善」的方法,以發(fā)現(xiàn)LLM所做解答中的不足之處。
便是如下的「評估協(xié)議」。
首先,將正確的解決方案與LLM生成的解決方案進(jìn)行比較,并在人工標(biāo)注員的協(xié)助下,總結(jié)出成功解決科學(xué)問題所需的10項基本技能。
具體包括:邏輯分解和分析能力;識別假設(shè);空間感知;因果推理;問題演繹;抽象推理;科學(xué)素養(yǎng);代碼轉(zhuǎn)換;邏輯推理;計算能力。
隨后,團(tuán)隊采用了一種由LLM驅(qū)動的自我評價方法,對每個實驗配置下基準(zhǔn)LLM所做的解決方案中,缺乏的技能進(jìn)行自動分類。
6種設(shè)置下GPT-3.5在文本數(shù)據(jù)集上的錯誤概況,揭示了其10種基本解決問題能力的缺陷分布
最后,通過分析發(fā)現(xiàn):
(1) 雖然CoT顯著提高了計算能力,但在其他方面的效果較差;
(2) 使用外部工具的提示可能會損害其他基本技能;
(3) 少樣本學(xué)習(xí)并不能普遍提高科學(xué)問題解決能力。
總之,研究結(jié)果表明,當(dāng)前大型語言模型在解決問題能力方面依舊很弱,并且在各種工具幫助下,依舊存在局限性。
參考資料:
https://www.preprints.org/manuscript/202308.0148/v2
https://arxiv.org/pdf/2307.10635.pdf
為什么OpenAI不能被計劃?
關(guān)鍵詞: