組織越來越多地利用機器學習模型來分配稀缺資源或機會。例如,此類模型可以幫助公司篩選簡歷以選擇面試候選人,或幫助醫院根據腎移植患者的存活可能性對其進行排名。
在部署模型時,使用者通常會努力透過減少偏差來確保其預測的公平性。這通常涉及一些技術,例如調整模型用於做出決策的特征或校準其生成的分數。
然而,麻省理工學院和東北大學的研究人員認為,這些公平方法不足以解決結構性不公正和固有的不確定性。在一篇新論文中,他們展示了如何以結構化的方式隨機化模型的決策,從而在某些情況下提高公平性。
例如,如果多家公司使用相同的機器學習模型來確定性地對面試候選人進行排名(不進行任何隨機化),那麽一個值得的人可能會成為每份工作的排名墊底的候選人,這可能是由於該模型如何權衡線上表格中提供的答案。在模型的決策中引入隨機化可以防止一個值得的人或群體總是被剝奪稀缺資源,比如面試機會。
透過分析,研究人員發現,當模型的決策涉及不確定性或同一組人持續收到負面決策時,隨機化尤其有益。
他們提出了一個框架,可以透過加權抽簽分配資源,將一定程度的隨機性引入模型決策中。這種方法可以根據個人情況進行調整,既能提高公平性,又不會損害模型的效率或準確性。
「即使你能做出公平的預測,你是否應該嚴格根據分數或排名來決定這些稀缺資源或機會的社會分配?隨著事物規模的擴大,我們看到越來越多的機會由這些演算法決定,這些分數中固有的不確定性可能會被放大。我們表明,公平可能需要某種隨機化,」數據、系統和社會研究所 (IDSS) 的研究生、論文的主要作者 Shomik Jain 說。
與 Jain 一起撰寫這篇論文的還有東北大學哲學與電腦科學助理教授 Kathleen Creel;以及資深作者 Ashia Wilson,電氣工程與電腦科學系 Lister Brothers 職業發展教授,資訊與決策系統實驗室 (LIDS) 首席研究員。這項研究將在國際機器學習會議上發表。
考慮索賠
這項研究以之前的一篇論文為基礎,該論文中研究人員探討了大規模使用確定性系統可能產生的危害。他們發現,使用機器學習模型來確定性地分配資源可能會放大訓練數據中存在的不平等,從而加劇偏見和系統性不平等。
「隨機化是統計學中一個非常有用的概念,令我們高興的是,它滿足了從系統和個體角度出發的公平性要求,」韋遜說。
在本文中,他們探討了隨機化何時可以提高公平性的問題。他們的分析以哲學家約翰·布魯姆 (John Broome) 的思想為框架,後者曾寫過一篇關於使用彩票以尊重個人所有要求的方式獎勵稀缺資源的價值的文章。
一個人對稀缺資源(如腎臟移植)的索取可能源於功績、應得或需要。例如,每個人都有生存的權利,而他們對腎臟移植的索取可能源於這一權利,韋遜解釋道。
「當你承認人們對這些稀缺資源有不同的要求時,公平就要求我們尊重每個人的要求。如果我們總是把資源給予要求更強的人,這公平嗎?」賈恩說。
這種確定性分配可能會導致系統性排斥或加劇模式化不平等,當獲得一次分配會增加個人獲得未來分配的可能性時,就會發生這種情況。此外,機器學習模型可能會出錯,而確定性方法可能會導致同樣的錯誤重復發生。
隨機化可以克服這些問題,但這並不意味著模型做出的所有決策都應該同等隨機化。
結構化隨機化
研究人員使用加權抽簽來根據模型決策中涉及的不確定性程度來調整隨機化程度。不確定性較低的決策應該包含更多的隨機性。
「在腎臟分配方面,通常計劃是根據預期壽命進行的,而這具有很大的不確定性。如果兩個病人的年齡只相差 5 歲,那麽衡量起來就困難得多。我們希望利用這種不確定性來客製隨機化,」韋遜說。
研究人員使用統計不確定性量化方法來確定不同情況下需要多少隨機化。他們表明,經過校準的隨機化可以為個人帶來更公平的結果,而不會顯著影響模型的效用或有效性。
韋遜說:「總體效用和尊重獲得稀缺資源的個人的權利之間需要取得平衡,但很多時候這種權衡相對較小。」
然而,研究人員強調,在某些情況下,隨機決策並不會提高公平性,而且可能會傷害個人,例如在刑事司法環境中。