當人工智慧成為新日常，學校的篩選機制將面對哪些挑戰？

2024-07-21科技

去年，全球人工智慧領域著名華人科學家李飛飛在一次公開演講中說道：「從我在史丹佛大學任教以來，我一直對大學的招生辦公室感到好奇。終於有一天，他們想找我聊一聊ChatGPT對招生的影響。我先問了我11歲的兒子：有了ChatGPT之後，我們應該如何篩選學生？如果申請人用ChatGPT寫了一個非常棒的應用程式，我們還應該錄取他嗎？」

「我11歲的兒子思考了一會兒回答道：我認為你們應該錄取2000名最會使用ChatGPT的學生。」

「一開始，我以為這是一個愚蠢的答案，但後來，我認為這個想法非常有趣。這一代的孩子們已經將人工智慧視為一種工具，一個11歲的孩子不會考慮這意味著什麽，但這恰恰在提醒我們已經不能把人工智慧排除在教育之外。」

當人工智慧成為下一代人的新日常，傳統的教育篩選機制是否還有效，我們還能從中找到優秀的人才嗎？

薩爾曼·可汗（Salman Khan）是孟加拉和印度移民後裔，在麻省理工學院獲得數學學士、電氣工程與電腦科學學士及碩士學位後，在哈佛商學院獲得了工商管理碩士。在一次對表妹的遠端輔導後，他將授課實況制成視訊傳上網站分享，收到好評如潮。於是他在2009年辭去金融分析師的工作，專心建設旨在為全球學生提供免費線上教育的「可汗學院」。

作為可汗學院的創始人，薩爾曼·可汗應OpenAI聯合創始人山姆·阿特曼（Sam Altman）之邀，成為世界上首批GPT-4測試者，深度體驗了人工智慧與教育的全方位融合，從而形成了他的獨特思考。

薩爾曼·可汗在他的新書【教育新語】中陳述了這樣一個觀點：人工智慧並沒有給大學招生帶來新的問題，而是迫使我們認識到現有大學招生機制的不足，同時提供了積極變革的可能性。

【教育新語：人工智慧時代教什麽，怎麽學】，[美]薩爾曼·可汗著，萬海鵬 / 王琦譯，中信出版集團，2024年7月。

在這本書裏，他探討了「在人工智慧時代應該教什麽」和「如何有效學習」這兩個核心問題，並提供了大量具體的案例，展示了人工智慧在家庭教育和課堂內外的實際套用。他不僅分析了人工智慧在個人化學習、課程設計、學生評估和教育公平性方面的套用，還著重討論了人工智慧對家庭教育的影響，指導家長如何在家庭環境中套用人工智慧工具，更好地引導孩子學習，培養孩子自主學習的能力。

下文摘編自【教育新語】，經出版社授權刊發。

我們還需要標準化測試嗎？

在美國，抨擊標準化測試已成為一種時尚。每個州都在每個學年結束時進行「總結性」測試，以衡量學生和學校的表現。人們經常批評這些測試過於狹隘，因為它們只針對生活中真正重要的東西的一小部份。這可能會給教育工作者造成壓力，縮小他們在課堂上關註的範圍。

這還不是全部。還有人認為，這些測試占用了學習時間，並且不具有可操作性。等到分數出來的時候，已經沒有什麽動力去關心他們在測試中的表現。另外，成績的人口統計學差異也可能導致對某些群體或學校的偏見。隨著教育變得越來越具有政治色彩，這些考試實際評估的內容缺乏透明度，這讓人們產生了懷疑。

但事實上，如果我們要進行評價，標準化測試可以說更公平，因為它對每個人都適用相同的標準（與「非標準化」的評價相比）。如果問題在於測試所評估的內容太過狹隘，那麽解決方案就應該擴大評估的範圍並使其更加豐富，而不是完全放棄這些測試。同樣，如果批評的焦點是可操作性或透明度，我們應該使測試更具可操作性和更透明。

最重要的是，盡管標準化測試並不完美，但取消這些測試真的會使事情變得更公平嗎？如果一所為少數群體提供服務的學校不知道他們的學生在哪些方面落後以及如何落後，那麽他們如何著手解決問題？對教育工作者、學生和家庭來說，知道自己的差距難道不是更好嗎？無論如何，這些不足最終都會顯現出來，很可能發生在多年以後，而那時再要彌補就難上加難了。更應該思考的是如何改進標準化測試，而不是試圖完全取消它。

傳統的標準化測試缺乏透明度和靈活性，這既是因為建立測試計畫的費用高昂，也是因為這些計畫必須確保安全；如果其中任何一個計畫泄密，整個測試就會失效。另一方面，如果你有一個易於存取的線上平台，可以從一個龐大的題庫中進行自適應測試，那麽你就可以讓更多的利益相關者隨時嘗試測試，而不會破壞測試。這是因為自適應測試會根據每個學生在之前問題上的表現，為他們提供不同的問題序列。兩個學生不太可能看到同一套題目。

生成式人工智慧具有幫助解決所有這些問題的潛力。大語言模型還不足以完全獨立創作出高品質的測試題目，但它們可以幫助出題人/審題人提高工作效率。最終，這將使我們能夠用同樣的資源設計出更多的試題，從而實作新一輪更加透明、更易獲取的評價。

在歷史上，要廣泛評價這些更細微的任務，成本高得令人望而卻步。即使是最基本的開放式試題，也需要專業的人類評審員使用復雜的評分標準和系統來確保一致性。類似於博士論文答辯或求職面試的更豐富的評價歷來無法大規模進行。最新一代的大語言模型有可能讓我們以更經濟、更普適的方式進行這類豐富的評價。

當然，使用人工智慧進行評價可能會引起人們的警惕。如果人工智慧存在無法立即察覺的偏見怎麽辦？如果它犯了錯誤怎麽辦？我試圖將這種假設與現狀進行比較。目前的評價是由深思熟慮但容易犯錯的人類完成的，他們都帶有自己的偏見。

這並不是說我們應該盲目地認可人工智慧評價。事實上，很多人會利用它做出一些糟糕的、充滿偏見的評價。不過，透過適當的關懷、透明度和監管措施，我們就能降低風險，開發出比現在的評價更豐富、更準確、更公平的評價方式。這將對整個教育系統產生積極的影響，重新開啟優質教育的大門，促使教育系統更加關註人的全面發展。

大學的篩選機制還有效嗎？

在美國，大學的篩選機制包括日常的學習成績、標準化測試、課外活動、論文和推薦信。除了難以更改結果的學習成績和標準化測試，課外活動、論文和推薦信一直是作弊的重災區，在大語言模型出現之前就已如此。

2019年3月12日，美國破獲了一起大學招生舞弊案，數十名富豪權貴被指控透過賄賂和欺詐手段，幫助子女進入包括耶魯、史丹佛、加州洛杉磯分校等頂尖名校，這就是著名的「校園藍調」醜聞。

「校園藍調」的核心人物名叫威廉·辛格，他創辦了一家名為「升學專家」（The Edge College Consulting）的咨詢公司，專門偽造虛假的申請材料，專門幫助富裕家庭的孩子進入名校。

事實上，無論存不存在舞弊，富裕的學生都會在申請學校的階段得到極大幫助。在矽谷，頂級顧問的收費大約是每小時400美元。協助一名學生完成一個大學錄取周期的費用可達數萬美元。這些水平較高的顧問會就如何處理課外活動和論文題目向學生提供建議，幫助選擇大學，並就早期的論文草稿向學生提供周到的反饋。他們可能會對學生的論文進行大量修改，實質上是在替學生寫論文。

顯然，像ChatGPT這樣的工具更容易為負擔不起高價顧問的廣大人群所使用。從積極的一面來看，生成式人工智慧可以幫助縮小貧富差距。從消極的一面看，道德水平較低的學生很可能會嘗試突破極限，使道德水平較高的學生處於不利地位。

招生負責人需要考慮的新問題是，學生提供的材料是否還具有說服力？

要解決這個問題，首先值得質疑的是，為什麽要把論文和推薦信作為招生的一部份。在大多數國家，進入名牌大學是一個相當客觀的過程。在印度，印度理工學院（IITs）的錄取完全基於聯合入學考試（JEE）。印度理工學院招收考試分數最高的學生，但也為一些代表性不足的群體設定配額。分數最高的學生不僅可以選擇自己心儀的校區，還可以優先選擇專業，錄取不涉及論文、推薦信或課外活動等任何主觀因素。

當然，美國的頂尖學府面臨的情況有些不同，它們的申請者眾多，如果只按照成績排序，它們可以招到遠超他們計劃數量的，擁有完美成績的學生。這迫使它們不得不采取一些主觀的方式去評價學生，即透過論文、課外活動和推薦信來衡量學生的個性和背景。

學生是否克服了困難？他們看起來有協作精神嗎？他們將來是否有可能對世界產生影響？對十七八歲的年輕人來說，這些都是很大、很深奧的問題。很多人都會懷疑，招生官能否根據一些受外界影響較大的文章和推薦信來判斷學生的這些品質。

課外活動可以說是學生領導力或社會責任感更具體的體現，但這也很難判斷。學生是靠自己的努力贏得了國際科學展嗎？他們的研究課題是心臟病，而他們的母親是一名心臟病學家，這是巧合嗎？誌願者的工作是實質性工作，還是只是聽起來讓人印象深刻的工作？

這一切都導致了美國競爭激烈的大學招生中的隨機性，任何參與過這一過程的人都清楚這一點。許多最聰明、最善於合作、最有才華的人被拒絕的次數遠遠超出了人們的預期。

存取任何一所頂尖大學，你都會遇到許多令人印象深刻的年輕人。同時，你也可能會遇到許多在學業上掙紮的學生，或者似乎沒有體現出謙遜、協作或領導力等特質的學生。大多數人認為，這些學生非常善於在論文中構建關於自己的敘事，並在系統中進行賽局，或者他們的家庭很善於雇人幫他們做這件事。

我們需要有更標準化的方法來評價「軟技能」，如領導力、協作和同理心。如果這些評價能夠與準確評價學生學術能力的方法結合起來，將會更加美妙。這種思路早在人工智慧出現之前就已經存在，但人工智慧將把事情推向另一個高度。

紀錄片【公正】（Justice，2009）畫面。

想象一下，如果全國每個人都有同一個老師。這個老師其實是一個很好的仲裁者，生成式人工智慧就會是這個新老師。

人工智慧代理甚至有可能親自為學生擔保，就像熟悉學生的老師一樣。你可以這樣想像 Khanmigo這樣的人工智慧助手已經與你合作了一段時間，它了解你的優勢和愛好，並能擬真地描繪出有關你的動態圖景。到了申請大學的時候，人工智慧可以為你寫推薦信。每一位使用該平台的學生的推薦信都是標準化的，只是它根據與每一位學習者相處的經驗擁有不同的記憶。

過去，招生面試通常由與學生居住在同一地區的校友進行，並不是對所有候選學生進行統一面試，而且面試結果也存在相當大的差異。他們可以幫助招生官篩選出有明顯問題的申請者，但對大部份在紙面上看起來很優秀的學生來說，面試起到的篩選作用很有限。

人工智慧使這一過程的可延伸性、一致性和可審計性大大提高。在這種情況下，人工智慧可以持續地總結學生與面試人員的互動情況，並根據招生辦公室建立的評分標準從多個維度對其進行評分。

當然，這會引發雙向偏見的擔憂。有些偏見是你想要看到的。你希望這個過程人工智慧將偏向於有思想、善於合作的年輕人，而不是出現性別、種族、宗教或地域偏見。百分之百無偏見的解決方案似乎是不可能的，但這不應該成為障礙。相反，任何人工智慧系統都需要明顯優於現實招生體系，而現實招生體系通常會涉及各種偏見。

這不是隨便說說的，2023年6月29日，美國最高法院以6比2的投票結果裁定，哈佛大學的種族平衡招生政策歧視亞裔申請人，違反了美國憲法第十四修正案的平等保護條款。

這項訴訟持續了將近十年的時間，原告是學生公平錄取組織（Students for Fair Admissions，簡稱SFFA）。2014年11月17日，該組織指控哈佛大學在本科生錄取過程中對亞裔美國申請人采取了種族歧視政策，導致亞裔學生被錄取的可能性低於其他族裔的學生。

事實上，在2018年聯邦最高法院審理的一起案件中，明確證實哈佛大學的招生官一直對亞裔美國人申請者的個性特征評分較低，甚至常常武斷地推翻面試官的觀察結果。哈佛大學的錄取程式從「學術」「課外」「體育」「個人」和「整體」五個方面對申請者進行評分，按照1到6分對學生進行排名，1分為最好。

白人申請者的個人評分高於亞裔美國人，21.3% 的白人申請者能獲得1分或2分，而亞裔美國人只有17.6%的人獲此分數。校友面試官給亞裔美國人的個人評分與白人申請者相當，但招生辦公室給亞裔美國人的評分是所有種族群體中最差的。

在這場重大訴訟之後，這些數據才浮出水面。在大多數情況下，這個非常不透明的過程中蘊含的偏見被很好地隱藏了起來。基於人工智慧的面試官和評審員的強大之處在於它們可以被審計。你可以用具有相同資質、不同人口統計學特征的申請者對它們進行測試，並公布結果，以確保不同種族、性別或背景之間的一致性。

人工智慧並沒有給大學招生帶來新的問題，而是迫使我們認識到現有大學招生的不足，同時提供了積極變革的可能性。審慎地使用人工智慧，再加上一點不斷求索的勇氣，或許能讓我們邁向一個更加公平、更加透明的世界。

原文作者/[美]薩爾曼·可汗

摘編/荷花

編輯/王菡

導語校對/劉軍