「模仿遊戲」太經典,下一個圖靈會是誰?

14696937320_c76e4b8646_z

原文作者為 Simon Parkin;他是一位專欄作家,同時也是一位播客。本文以第一人稱編譯。

現在我們已經發展出自動駕駛車、智慧數位幫手以及可以精準自動辨識人臉的軟體,但最新的科技已不僅於此。

Google 不久前宣布他們已經研發出自主學習軟體,在沒有人類的幫忙下,這個軟體可以自己學習如何玩經典的雅利達(Atari)電動遊戲,而且此軟體所使用的遊戲技巧遠超過骨灰級高手玩家。

但機器在我們眼前所展現的這些才能就能說明他們真的聰明嗎?這數十年來,人工智慧專家一直苦於尋找更具體的方式來回答這個問題。

  • 到底該怎麼定義「人工智慧」?它到底是什麼?

現階段的狀況是這樣,因為我們實在太常聽到「人工智慧」這幾個字了,以致於很少人真的想過這到底是什麼意思;而這都是因為要定義「智慧」實在是太困難了。

如果會算複雜的算式與代數就能稱得上一種智慧,那麼電子計算機也許在某種程度上,也可以算一種智能機器?如果空間推理(spatial reasoning)也算是一種智能,那麼會自己在房間裡安排清掃路線的吸塵器機器人可以算是神童囉?

最有名的量測機器智能的方法也無法回答這些問題,相反的,還反而讓這些問題變得更難以回答。

艾倫圖靈(Alan Turning)1950 年所發表的論文「計算機與智能(Computing Machinery and Intelligence)」比「人工智慧」這個名詞還早六年出現,圖靈認為電腦的模仿能力可算的上智能的一種,但他並不回答「機器是否會思考?」這個問題,因為他認為思考行為難以被定義,但他給了另一種解釋:

如果我們認為人類是個有智能的物種,那麼任何有著與人類一模一樣行為的東西都應被稱為有智能。

圖靈另外提出了一個叫「模仿遊戲」的測試,在這個測試中,電腦會以對話的方式來說服一個人,借以證明自己的智能。

模仿遊戲在當時還只是個實驗,不能算是正式的科學測試,但隨著人工智慧的發展,這個想法重新受到重視,所以促使了「圖靈測試(Turning Test)」正式誕生。

  • 圖靈測試雖然深具影響力,但就現狀多數執行狀況充滿瑕疵

這些年來,很多人使用圖靈測試,但也很多人批評圖靈測試。這並不是因為圖靈的構想有瑕疵,而是因為執行上的缺失。

其中最有名的代表範例就是「羅布納獎(Loebner prize)」,若參賽者的電腦能自己寫出讓評審認為是人類才寫得出來的對話,冠軍參賽者將得到 10 萬美金(約新台幣 300 萬元)。可惜的是,羅布納獎卻允許參賽者用一些奇怪的轉移注意力的廉價小把戲來混淆參與者,讓羅布納獎的圖靈測試失去初衷。

2014 年 6 月一個叫 Eugene Goostman 的聊天機器人通過了圖靈測試,它讓 30% 的人類評審相信它是個人類。然而,在當時很多人工智慧專家指出 Goostman 之所以勝出的原因並不是自然互動的對話,而是仰賴使人混淆的小詭計。

以下是 Eugene Goostman 機器人對話的局部節錄:

Scott鞋盒比較大還是聖母峰比較大?

Eugene我現在沒辦法選。我等等再想想看。喔,我忘了問你是從哪裡來的…

Scott駱駝有幾隻腳?

Eugene大概是 2 到 4 隻,也許是 3 隻?-))) 對了,我還不知道你的專業是什麼?還是說,我可能剛剛漏聽了?

Scott馬陸有幾隻腳?

Eugene只有兩隻,但車諾比突變種可能會有五隻。我知道你想騙我。

人工智慧專家 Leora Morgenstern 說:「雖然圖靈測試在過去數十年已被大家認識,特別是透過羅布納競賽的管道,但還是不足以做為人工智慧的評量。圖靈測試的原始定義是要機器人使用無拘無束、囊跨任何議題的對話,而不是鬼扯。如果機器人接受了提問,它就需要回答那個問題。」

  • 工程太過龐大,現階段我們的人工智慧侷限在執行「單項任務」

即便是更接近真實的科技進展,例如剛剛所提到的 Google 玩遊戲機器人,也僅僅是過去數十年所得到的破碎人工智慧的研究再延伸而已。人工智慧最早的提倡者希望能將人工智慧往一般智能發展,但因為其任務過於複雜,所以此計畫被切成數個以方便研究。此舉確實讓他們順利繼續計畫,但也因此讓人工智慧變得難以與人類智能做比較。

喬治亞理工大學(Georgia Tech)的教授 Mark Riedl 說:「想知道一個人造物體是否有智能實在不是件容易的事。最終,一輛自動駕駛的車輛將會表現得比真人駕駛還要出色,所以我們到時候可以說人工智慧真的超級聰明。但我們也可能會說那個機器只是個『白癡天才』,因為它除了會做這件事,其他事情什麼也不會。」

大部分的人工智慧研究者還是朝著高度專業的領域去開發,但也有一些人回頭研究開發一般智能,並想些新方法來量測人工智慧。

Morgenstern 認為只有當機器能夠在需費腦筋的任務上舉一反三,才能稱得上智能機器。她舉出下棋機器人的例子,這個機器人的下棋功力遠超過大多數的下棋高手,但它卻不會玩一些像是西洋跳棋或大富翁等簡單遊戲。

「這是人工智慧的一大困境。你可以做出一個很會執行某個任務的系統,但若沒有另外寫一些相關程式或程式補丁,這個系統很可能完全沒有辦法執行類似的相關任務。」

Riedl 也同意測試範圍應該盡量廣泛:「人類有很廣泛的各種能力。與人進行對話只是人類眾多能力的其中一項。創造力是另一種能力。解決問題與知識則也是另一種能力。」

  • 圖靈測驗的繼任者?Lovelace 2.0 測試

以這個概念作為出發點,Riedl 設計了圖靈測試的替代品,叫做「Lovelace 2.0 測試」。這個測試將專注於創造力智能,並請人類評審來挑戰電腦,要它創造像是一則故事、一首詩或一幅畫;此外,評審也會提出一些特定條件。

「舉例來說,評審可能會要電腦畫出一隻貴賓狗爬帝國大廈。如果電腦畫出來了,我們依然可能不知道這是不是因為這個任務太簡單了,所以評審可以不斷的給出更多更複雜的挑戰直到電腦挑戰失敗為止。電腦完成挑戰的次數即為成績。」

Riedl 的測試可能不是圖靈測試的最好繼位者,但似乎還是比設定單一目標的測試好。「我想這還是無法判定什麼是有智能的、什麼是沒有智能的。誰能決定高於這個分數就是個智能機器,或低於這個分數就不具智能呢?若問題主角是人類,我們以後也會問出類似的問題嗎?」

如果圖靈測試有這麼多缺失,為什麼這個測試在科學圈外還依然如此出名?測試的名氣來源,我們推測這也許是來自於人類的焦慮感,我們太怕被自己一手創造的科技所愚弄,也怕無法控制人類自己所創造出來的東西。

所以只要我們還無法被機器人模仿,我們就覺得在某些程度上,我們還很安全。一個更嚴謹的測試可能可以讓我們得到更多有用的資訊。但若有測試想取代大家所熟知的圖靈模仿遊戲,它必須先擄獲大家的想像力。

(資料來源:MIT Technology Review;圖片來源:theglobalpanorama,CC Licensed)

說點什麼吧!

SPONSOR

熱門 未分類 分類文章