經濟選書/AI科學家 展開新視界之旅
《AI科學家李飛飛的視界之旅》書封。 天下文化/提供
「猿猴」?我的老天啊。
這是Flickr(隸屬於Yahoo的圖片託管服務)在2015年5月自動生成的標註,但標註的是56歲黑人男子威廉的黑白肖像照。民衆之間迅速掀起一場義憤,但這還只是Flickr新技術一連串錯誤的開端,像是後續曾把一張達浩(Dachau)集中營大門的照片標成「叢林健身房」,也曾再一次把人標成「猿猴」,只不過這次是一名臉上塗着彩色粉末的白人女性。
出錯的不只有Yahoo;時至6月,Google的Google相簿也惹出類似的爭議,把兩位黑人青少年標成「大猩猩」。短短几周,原本殆無疑義的圖像分類成功故事,忽然變得有點一言難盡。
就算是我們這些沒在惹議公司上班的人,也很難不覺得有點愧疚。那些錯誤絕非出於惡意,但這麼說實在算不上安慰,因爲如此一來,可見問題更令人不安:錯誤起因包括了資料集不夠多樣化(包括ImageNet在內),演算法並未經過充分測試,以及決策過程值得質疑。
如果網際網路上的日常生活景象主要就是白人、西方人、還通常爲男性,我們得到的技術也就很難用來了解其他類型的人。
這無可避免地導致記者兼評論員克拉克(Jack Clark)所謂AI「男山男海」(Sea of Dudes)的問題:科技行業的組成不夠多元、缺乏代表性,使得演算法在無意之間出現了偏見,只要遇上非白人、非男性使用者,就表現不佳。
克拉克的文章於2016年發表在《彭博商業週刊》,後續也有愈來愈多人加入對話,共同討論AI如何一念爲善(支持殘疾人士、追蹤森林遭到砍伐摧毀的情形,以多種新的方式保護人類生命),但也可能一念爲惡。
我回想起當初還在辛苦打造ImageNet的那些年,就算是當時那些最具創意、即興揮灑的我們,基本上也對這樣的問題一無所知。
十年前,在Google與維基百科的組織下,關於這個世界的內容爆炸般成長,似乎打開了一扇窗,讓人可以望見人類生活最真實的面貌,而不只是像電視或報紙那些傳統媒體狹隘地匆匆一瞥。
當然,在某種程度上,Google與維基百科確實達到了這樣的效果。然而,雖然這樣呈現的面貌極其生動、我們也對此深懷期許,但這樣看到的景象與真正完整的全貌卻還有很大的距離。
這是個我們早就該面對的問題,但光是像這樣的對話,還不足以讓我心裡的工程師覺得滿意。雖然當中的問題顯然有一大部分在於資料集不夠平衡,但也還有其他無數因素得加以考慮。演算法的模型呢?受到這些資料影響的演算法當中,是否還隱藏着尚未發現的架構弱點?用來輔助訓練過程的學習技巧,會不會也有問題?目前看來,不僅問題的數量比答案更多,比例還愈來愈不平衡。
這些問題也沉甸甸地壓在魯薩科夫絲基的心頭上。在這個男性佔絕大多數的領域裡,我們兩個身爲相對少數的女性,多年來可說是惺惺相惜,對於女性做AI研究這件事,種種不愉快的體驗也極爲相似。等到2010年代中期,她實在覺得受夠了,決定要不做點什麼,要不就徹底離開學術界。她最後選擇了前者,而我們也決定攜手合作。
(摘自《AI科學家李飛飛的視界之旅》,天下文化出版)
延伸閱讀