人工智能偏見:亞馬遜自動過濾女性求職者

編者按:隨著人工智能的普及,其背後不断發展的智能算法也在各種決策中發揮著越來越重要的作用。然而,就算法理解、使用實踐、自動化決策中快速滲透的偏見甚至缺乏透明度和問責制等方面問題,仍然尚存爭議。前不久,就有媒體爆出,亞馬遜自己研發的人工智能簡歷篩選系統,就存在“偏見”,並且會自動過濾女性求職者。人工智能偏見到底是怎麼一回事?著名分析師Benedict Evans專門針對這個問題發表了一篇題為Notes on AI Bias的文章,希望對你有所啟發。

人工智能偏見:亞馬遜自動過濾女性求職者
人工智能偏見:亞馬遜自動過濾女性求職者

圖片來源:DigitalOcean

如今,機器學習是科技領域重要的基本發展趨勢之一。在未來十年,要通過科技更廣泛地影響和改變人類世界,機器學習也是非常主要方式之一。

然而,機器學習也讓人產生了不少顧慮。有人擔心它對人類就業會帶來潛在的不利影響,也有人擔心過度依賴機器學習可能會觸及人類的道德底線,當然也有人討論人工智能偏見所帶來的一系列問題,這些問題一點都不簡單,這也是這篇文章討論的重點。

什麼是人工智能偏見?

原始數據既是一個矛盾體,又是一個壞點子。所以,我們應該精心處理並分析這些數據。

——傑弗裡·博克爾(Geoffrey Bowker)

在2013年之前,如果你想開發一個軟件系統,並用它來識別照片中的貓,你可能只有通過寫程序的方式來實現這個目的。

在程序腳本中,你可能需要關注的是如何識別並分析圖片中的動物輪廓、眼睛以及動物皮毛。此外,你還需要關注這些動物有多少隻腿等等。然後再把所有的因素綜合一起考慮。

然而,這樣的程序實際上並沒有多大的用處。

從概念上來說,這就好比製造一匹機器馬一樣。從理論上來說,的確行得通。然而實踐起來,卻又是另一回事,你會發現事情的複雜性,要比你想像的難得多。

最後,你有可能寫了成百上千條腳本程序,也沒有得到任何有用的結果。

借助機器學習,我們就不再需要親自寫腳本程序來識別X或Y。

相反,機器學習的做法是,通過收集上千個樣本X和Y,並基於這些樣本的有關數據通過電腦對其建模。然後,該數據模型就會產生具有一定精準性的全新數據點,同時可以識別其是否符合所有的X或Y樣本的特徵。

機器學習需要借助數據來建模,而不是通過人工寫這個模型程序。這種方式生成的結果高度精準,特別是用於識別或模式發現等情況下。因此,整個科技領域如今都在往機器學習方向發展。

不過,有一個問題也值得我們關注。

在現實社會中,上千個(甚至上萬、上百萬個)樣本X和Y中,同樣還包括A、B、J、L、O、R和P。它們可能沒有平均地分佈,從而系統可能會更加“關注”L和R,而稍微“忽視”了X。

這在實踐中又意味著什麼呢?

我可以通過自己喜歡的例子來說明。圖象識別系統會傾向於分析一張滿是綠色草地的山丘,然後識別出山丘上的綿羊。

多數“綿養”的樣本照片背景中,都有綠色草地。畢竟,這是羊群通常生活的地方。而這些照片樣本中,相比於白色茸毛狀的綿羊,綠色草地則會顯得更加突出和明顯,所以整個圖象識別系統就會把對草地的權重加高,從而更“關注”草地。

人工智能偏見:亞馬遜自動過濾女性求職者
人工智能偏見:亞馬遜自動過濾女性求職者

圖片來源:Cubix

如果要用更“嚴肅”的案例,就不得不提到最近一項關於通過照片識別皮膚癌症的項目。

在這個項目中,皮膚病專家把患有皮膚癌症的照片樣本拿來研究,通過對圖象的不斷放大併進行局部結構分析,從而讓系統不斷熟練地識別皮膚癌症的標記。但實際上,健康皮膚的照片樣本中根本都不存在他們想找到的局部結構。

對這套系統而言,這些局部結構(或者可以理解為一格格像素)是分析並設別皮膚癌症的關鍵,有的情況下它們比皮膚上的小紅斑點還明顯。因此,與其說這個系統是用來識別皮膚癌症的,不如說它是用來識別這些局部結構的。

值得注意的是,機器學習背後的系統,實際上並不瞭解我們所觀察事物背後的語義。

我們可以通過識別並理解照片上的一格格像素,從而識別出那隻羊、皮膚或者其局部結構,但系統能識別出的卻只是一串列數字。它無法看到3D景象,或各種物體和其結構,當然也看不到那隻羊。它只能看到的是各種數據模式。

此外,另一個具有挑戰的事情是,機器學習系統生成的模型(即神經網絡)包含了不計其數個節點,但我們卻無法直接深入模型內部並瞭解它到底是如何做出決策的。否則,機器學習根本就是多餘的,我們也許可以直接通過寫腳本程序來解決這個問題。

很多人總是擔心,機器學習就像一個黑匣子(不過,這個觀點的確有點誇大其詞。後文還會進一步闡述)。

簡言之,人工智能偏見(或者機器學習偏見),實際上是某個尋找數據模式的系統可能會找到錯誤的模式,而我們人類還有可能不會察覺這個錯誤。

它是這項科技的核心附帶品。無論是在學術界還是大型科技公司,研究和使用這項科技的人都瞭解這個事實,但其影響卻是非常複雜的,而我們可能應對的解決方案,也同樣沒那麼簡單。

首先,先談它的影響。

人工智能偏見:亞馬遜自動過濾女性求職者
人工智能偏見:亞馬遜自動過濾女性求職者

圖片來源:Health Catalyst

人工智能偏見的場景

提到人工智能偏見,最明顯也最直接出現這種情況的場景就是涉及人類多樣性的場景。

據前段時間的報導稱,亞馬遜嘗試建立一套機器學習系統,從而來篩選求職者的簡歷。因為亞馬遜現有成員以男性居多,所以這套系統所挑選的符合標準的“合格候選人”畫像也更偏向於男性,所以在挑選建立過程中就自動過濾掉了很多女性求職者。

亞馬遜隨後發現了這個問題,後來也沒有再繼續開發這套系統。

這個案例的關鍵點在於,即便求職者簡歷上並沒有標明其性別,系統在自動篩選過程中仍能偏向於男性求職者。

之所以導致這樣的結果,是因為系統能夠從樣本數據中進行模式分析,比如女性在描述個人成就的時候會使用和男性不同的詞彙,又或者女性在學校參加的體育運動和男性也不同。

當然,系統肯定不知道什麼是冰上曲棍球,不知道人類是什麼,當然也不知道什麼是“合格”,它可以做的,只不過是對文本進行數據分析罷了。

然而,系統可以分析的數據模式,我們人類卻並不一定可以注意到。即便我們注意得到(比如我們所知的不同性別在描述個人成就方面所選詞彙的不同),我們可能也會因此耗費大量精力和體力。

當然,人工智能偏見的場景遠不止於此。

擅長通過蒼白皮膚識別皮膚癌症的機器學習系統,可能根本無法識別顏色較深的皮膚上可能存在的皮膚癌症,反之亦然。

這並不是因為系統對樣本有偏見,而是我們可能需要針對不同樣本而建立不同的分析模型,從而找出不同的特徵。

機器學習系統也並不是可以互通交換使用的,即便是圖象分析這種同類型的應用當中。你必須對這套系統結構進行不斷的調整,有時候為了識別你感興趣的數據其固有特徵,還需要不斷地試驗和試錯,從而達到期望的準確率。

然而,你可能無法覺察到的是,這個系統在識別某個群體樣本時準確率可能達到98%,但識別另一個群體樣本的準確率卻只有91%(即便這個準確率仍然比人工分析的準確率還高)。

目前我列舉的案例都是以人物或者其有關特徵為主。但更重要的是,人工智能對人的分析偏見實際上是某個大問題中的一個子問題。

我們會用機器學習來分析很多事物,而樣本偏見則存在於所有的分析之中。因此,如果我們的樣本是人的話,那相關的數據分析則可能存在一定的偏見。

人工智能偏見:亞馬遜自動過濾女性求職者
人工智能偏見:亞馬遜自動過濾女性求職者

圖片來源:SmartData Collective

為了更系統地瞭解這個問題,我們可以再次回到之前提及的皮膚癌症案例,並同時考慮以下三種可能被打破的假設情況:

樣本人口特徵不均勻:所有樣本照片中,各種膚色的皮膚樣本並不相同,所以系統會基於皮膚膚色做出錯誤的分析判斷。

樣本數據包含明顯的非平均分佈的非人類特徵信息,並且毫無診斷價值,但系統卻基於此(樣本皮膚癌症照片中的一格格像素,或者樣本羊群照片中的綠色草地)而不斷進行分析訓練。在這個案例中,如果我們把所看到的像素當作局部結構(實際並不是)來分析的話,結果就可能相差甚遠。

數據所包含的某些特徵信息無法被人類察覺發現,即便通過某些特定方法仍然無法發現。

那麼,“即便通過某些特定方法”又意味著什麼呢?

我們的先驗經驗告訴我們,數據可能會有傾向性地偏向一部分群體,或者至少會有類似的計劃(換句話說,要猜測為什麼數據會偏向一部分群體,其實是因為多種社交因素導致的)。

如果我們想要發現樣本照片中的局部特徵,我們是可以看見的。但我們選擇了忽視它,因為我們知道它是不相關因素,但我們卻忘記的是,系統對此卻全然不知。

然而,如果所有的不健康皮膚樣本照片都是在白熾燈的照射下拍攝的,但健康皮膚的樣本照片卻都是在螢光燈照射下拍攝的,這又會出現怎樣的情況?

如果在拍攝健康皮膚樣本照片和拍攝不健康皮膚樣本照片的間歇期間,你更新升級了手機的操作系統,而蘋果或者谷歌剛好又更新了降噪算法,這又會導致怎樣的情況?

這些情況,即便我們投入再多精力,我們可能還是根本無法察覺,但機器學習系統卻可以輕鬆地察覺並利用這些情況。畢竟,它什麼都不知道。

此外,在這之前我們一直在討論錯誤的相關性,但數據中其實也有很多非常正確的模式,只不過基於一些道德因素、法律因素或者產品相關的因素,我們並不想利用這些數據模式。

在某些司法管轄區域,即便我們知道女性司機的車禍率可能更低,我們也不能因此降低她們的保費。

所以,我們就可以輕鬆地假設,可以借助機器學習系統,結合歷史數據並發現看起來像女性名字的被保險人其報保險的機率更低,從而從數據中排除這些名字。

但是,就像前文提到的亞馬遜案例一樣,系統也許可以通過其它因素辨別出分析對象的性別(儘管系統可能並不瞭解性別或者汽車等概念),但在瞭解相關數據分析之前,你可能卻全然不知。

最後,我們通常都說,目前我們只會利用機器學習系統從事有關人際社交交往的研究和學習,但實際上並不是這樣。

如果你是燃氣渦輪機製造商,你可能就會對機器學習系統感興趣。因為借助機器學習,你可以對成百上千個渦輪機感測器實現遠距離測量(通過聲音、振動、溫度以及感測器反饋的其它數據信息輕而易舉地建立機器學習模型)。

假設情況下,你可以從中篩選出1000份出現故障即將停止運轉的渦輪機工作數據,同時還可以篩選出另外1000份正常運轉的渦輪機工作數據。然而,你可以以此建立一個機器學習模型,從而分析兩種數據之間的差別。

分析相關數據後,假設75%的故障渦輪機都是用的是西門子生產的感測器,而只有10%正常運作的渦輪機使用的是西門子感測器(同時假設故障與感測器無關)。

然後,你就會發現,機器學習系統建立的數據模型,就會更加“關注”裝有西門子感測器的渦輪機。

人工智能偏見:亞馬遜自動過濾女性求職者
人工智能偏見:亞馬遜自動過濾女性求職者

圖片來源:Hacker Noon

如何管理人工智能偏見?

針對人工智能偏見,我們能做的是什麼?

首先,我們可以從三個角度來思考人工智能的偏見:

收集和管理訓練數據的方法嚴謹性;

分析和診斷數據模型行為的科學工具;

機器學習實踐過程中的培訓、教育和注意事項。

在法國喜劇作家莫里哀(Molière)著作的《貴人迷》(Bourgeois Gentilhomme)一書中,講述了這樣一個笑話:一位男子活了一輩子都不知道文學可以分為詩歌和散文,直到別人告訴他後,他才欣喜地發現,原來他這輩子只接觸過散文。

如今的統計學家,也可能有類似的體會。他們這輩子可能都在從事研究工作,但就是沒有意識到“人工智能”和“樣本偏見”兩個不同命題。

擔心存在樣本偏見,或者尋找樣本偏見,並不是新問題。只不過,我們需要系統性地對待這個問題。

正如前文渦輪機案例所述,在某種程度上,如果只涉及到和人相關的主題,它可能實際上(或者從理論的角度)就會相對簡單一點。因為先驗經驗告訴我們,針對不同群體可能存在一定偏見,但我們沒有意識到的是,我們可能對西門子存在偏見。

而更新的觀點是,我們並沒有再直接地對數據進行分析,而是讓機器通過建立我們無法直接分析的超級複雜的模型來完成這項作業。

整個過程中,透明度就是與偏見相關的值得考慮的主要問題之一。我們擔心的,並不只是可能存在偏見,而是我們根本無法知道是否存在偏見,這對我們來說是全新的事物,和我們所接觸過的組織機構或自動化流程也不同,所有並沒有可以讓你回顧審查的清晰邏輯步驟。

人工智能偏見:亞馬遜自動過濾女性求職者
人工智能偏見:亞馬遜自動過濾女性求職者

圖片來源:Symmetry Magazine

在某種程度上,我們可能可以回顧審查機器學習系統,但要去審查其它系統,則更加困難。因此,這就引出了以下兩個問題。

首先,目前關於機器學習的研究主要圍繞借助相關方式和工具,發現機器學習系統中的亮點功能。

但機器學習是一個全新領域,相關科學進步速度也非常快,所以我們不應該假設,今天還不現實的事情,明天就一定不現實。馬斯克牽頭成立的AI研究機構OpenAI旗下的這個項目,就是活生生的例證。

此外,在現有的系統或組織架構中,我們可以審查並瞭解系統決策制定的這個想法,雖然理論上是成立的,但實踐過程中卻存在很多問題。

比如,在一個複雜的組織架構中,要審查並發現決策制定的方法非常困難。也許存在一個正式的決策審批流程,但這並不是人們實際溝通交流的方式,而且就個人決策而言,人們通常也沒有邏輯清晰同時又極具系統性的方法。

正如我的同事維傑·潘德(Vijay Pande)所言,人類群體也是黑匣子。在這個黑匣子中,有不計其數的個體,他們縱橫交錯與各種組織和機構中,背後還連帶著著各種數不清的複雜問題。

我們事後才知道,宇宙飛船在重返大氣層時會解體,但美國航空航天局(NASA)內部不少人士都認為,後面可能會釀成悲劇,但系統自身卻對此全然不知。

同時,NASA之前在損失宇宙飛船後,也經歷過一模一樣的審查流程,但後來卻因為相同的原因,又損失了一艘宇宙飛船。所以,無論是組織機構,還是人類系統,我們可以審查其遵循的清晰邏輯規則,說起來的確簡單,但經驗告訴我們,並不是這麼回事。這就是所謂的蘇聯國家計劃委員會謬誤(Gosplan fallacy)。

人工智能偏見:亞馬遜自動過濾女性求職者
人工智能偏見:亞馬遜自動過濾女性求職者

圖片來源:shutterstock

在本文中,我一直將機器學習和數據庫(特別是關係數據庫)做比較。關係數據庫是一項新的基礎技術,它改變了計算機科學中已經證實的事物,同時也改變了宏觀世界,它被運用於各行各業,但我們卻未曾注意到它。

但數據庫也存在問題,而且這些問題都有相似的特徵:這些系統可能是建立在錯誤的假設和數據之上,很難分辨,而我們人類在使用過程中,可以不假思索地聽命於系統提示,並且完全不會提出相關質疑。

有很多故事都在講,稅務局把你的名字拼錯了,但說服他們修改系統的拼寫錯誤,比你在公安機關申請改名字要難得多。

這是結構化查詢語言(SQL)固有的技術問題,還是甲骨文公司(Oracle)的問題,或者是大型官僚機構的制度問題?

建立一個所謂的流程,從而讓系統無法修改拼寫錯誤到底有多難?或者在引起民眾投訴之前,發現系統出過類似問題,又有多難?

用更簡單的生活實例來講,車載衛星導航系統沒有及時更新,車主跟著導航把車開進了河流中。這裡的問題是,導航系統的確沒有及時更新。但另一個值得關注的問題是,如果這輛車順流漂向海中,那Tomtom公司(荷蘭主營地圖、導航和GPS設備的公司)需要承擔多少責任?

通過這些內容,我想說明的是,機器學習出現之前,世界上就存在各種問題,當然有各種解決方案。機器學習偏見也會導致問題,但同樣也是可以發現和解決的。

因此,最容易想到的出現人工智能偏見的場景,可能並不是來自權威機構的核心研究實驗室,而是一些三流技術承包商或軟件供應商,他們胡亂地把各種開源組件、軟件庫以及工具拼湊在一起,在自己不懂的前提下,就直接將其出售給了一些“天真”的買家。

這些只在乎“金玉其外”的買家,看到“人工智能”標籤就根本不考慮該問的問題,然後直接將這套軟件交給公司底層領著最低工資的員工,並且告訴他們文不加點地按照“人工智能”的提示操作就行。

這就是數據庫出現的問題。這個問題,甚至都算不上是人工智能的問題,或者說軟件問題。更準確的說,這是人的問題。

人工智能偏見:亞馬遜自動過濾女性求職者
人工智能偏見:亞馬遜自動過濾女性求職者

圖片來源:House of Bots

寫在最後……

機器學習系統可以為你做任何事情。你能訓練狗完成的事情,機器學習系統也可以完成。只不過,你完全無法確定的是,你到底在訓練狗做什麼。

我經常都在思考,“人工智能”這個詞彙是不是在類似的背景中百無一用。

它在很大程度上給我們造成一種錯覺,即我們實際上創造了智能,一種可以真正進行理解的智能,然而,實際上卻並不是這麼回事。

從根本上而言,它們只不過是機器罷了,也許更恰當的做法,是把它和洗衣機拿來對比。

就洗衣服而言,洗衣機的確要比人工效率高得多,但你把盤子放進洗衣機並開啟洗衣功能後,它還是會洗這些盤子,而且盤子也還是會變得乾淨。但最後的結果,肯定不是你所期待的結果,因為洗衣系統對盤子有偏見。

洗衣機肯定不知道什麼是衣服,什麼又是盤子,它只是一個自動化機械。從概念上而言,它和之前其它不同的自動化機械也並沒有太大的區別。

也就是說,正如汽車、飛機或數據庫一樣,這些系統可以非常強大,同時又非常有侷限性,並且完全取決於人們如何使用它們,或者我們到底有什麼企圖,甚至人們對這些系統原理的教育或無知程度。

所以,如果說人工智能就是數學,它不會出現偏見,就大錯特錯了。同理,如果說機器學習本身也存在偏見,這種說法也站不住腳。

機器學習是在數據中發現模式,至於是什麼模式,則取決於數據,而數據又取決於我們,我們怎麼利用它也是取決於我們。

機器學習在某些領域的表現遠遠超過我們人類,就像狗比人類更擅长發現毒品等違禁物品一樣,但我們卻不會根據狗的證據來定罪。狗比其它任何機器學習系統都要聰明。

本文經授權發布,不代表36氪立場。

如若轉載請註明出處。來源出處:36氪