去年,“AI教母”李飛飛在一次公開(kāi)演講中說(shuō)道:
“從我在斯坦福大學(xué)任教以來(lái),我一直對(duì)大學(xué)的招生辦公室感到好奇。終于有一天,他們想找我聊一聊 ChatGPT 對(duì)招生的影響。我先問(wèn)了我 11 歲的兒子:有了 ChatGPT 之后,我們應(yīng)該如何篩選學(xué)生?如果申請(qǐng)人用 ChatGPT 寫(xiě)了一個(gè)非常棒的應(yīng)用程序,我們還應(yīng)該錄取他嗎?
我 11 歲的兒子思考了一會(huì)兒回答道:我認(rèn)為你們應(yīng)該錄取 2000 名最會(huì)使用 ChatGPT 的學(xué)生。
一開(kāi)始我以為這是一個(gè)愚蠢的答案,但后來(lái),我認(rèn)為這個(gè)想法非常有趣。這一代的孩子們已經(jīng)將人工智能視為一種工具,一個(gè) 11 歲的孩子不會(huì)考慮這意味著什么,但這恰恰在提醒我們已經(jīng)不能把人工智能排除在我們的教育之外?!?/p>
當(dāng)人工智能成為下一代人的新日常,傳統(tǒng)的教育篩選機(jī)制是否還有效,我們還能從中找到優(yōu)秀的人才嗎?可汗學(xué)院創(chuàng)始人薩爾曼·可汗在他的新書(shū)《教育新語(yǔ)》中陳述了這樣一個(gè)觀點(diǎn):人工智能并沒(méi)有給大學(xué)招生帶來(lái)新的問(wèn)題,而是迫使我們認(rèn)識(shí)到現(xiàn)有大學(xué)招生的不足,同時(shí)提供了積極變革的可能性。
下文摘編自他的新書(shū)《教育新語(yǔ)》:
《教育新語(yǔ)》書(shū)封
我們還需要標(biāo)準(zhǔn)化測(cè)試嗎?
在美國(guó),抨擊標(biāo)準(zhǔn)化測(cè)試已成為一種時(shí)尚。每個(gè)州都在每個(gè)學(xué)年結(jié)束時(shí)進(jìn)行“總結(jié)性”測(cè)試,以衡量學(xué)生和學(xué)校的表現(xiàn)。人們經(jīng)常批評(píng)這些測(cè)試過(guò)于狹隘,因?yàn)樗鼈冎会槍?duì)生活中真正重要的東西的一小部分。這可能會(huì)給教育工作者造成壓力,縮小他們?cè)谡n堂上關(guān)注的范圍。
這還不是全部。還有人認(rèn)為,這些測(cè)試占用了學(xué)習(xí)時(shí)間,并且不具有可操作性。等到分?jǐn)?shù)出來(lái)的時(shí)候,已經(jīng)沒(méi)有什么動(dòng)力去關(guān)心他們?cè)跍y(cè)試中的表現(xiàn)。另外,成績(jī)的人口統(tǒng)計(jì)學(xué)差異也可能導(dǎo)致對(duì)某些群體或?qū)W校的偏見(jiàn)。隨著教育變得越來(lái)越具有政治色彩,這些考試實(shí)際評(píng)估的內(nèi)容缺乏透明度,這讓人們產(chǎn)生了懷疑。
但事實(shí)上,如果我們要進(jìn)行評(píng)價(jià),標(biāo)準(zhǔn)化測(cè)試可以說(shuō)更公平,因?yàn)樗鼘?duì)每個(gè)人都適用相同的標(biāo)準(zhǔn)(與“非標(biāo)準(zhǔn)化”的評(píng)價(jià)相比)。如果問(wèn)題在于測(cè)試所評(píng)估的內(nèi)容太過(guò)狹隘,那么解決方案就應(yīng)該擴(kuò)大評(píng)估的范圍并使其更加豐富,而不是完全放棄這些測(cè)試。同樣,如果批評(píng)的焦點(diǎn)是可操作性或透明度,我們應(yīng)該使測(cè)試更具可操作性和更透明。
最重要的是,盡管標(biāo)準(zhǔn)化測(cè)試并不完美,但取消這些測(cè)試真的會(huì)使事情變得更公平嗎?如果一所為少數(shù)群體提供服務(wù)的學(xué)校不知道他們的學(xué)生在哪些方面落后以及如何落后,那么他們?nèi)绾沃纸鉀Q問(wèn)題?對(duì)教育工作者、學(xué)生和家庭來(lái)說(shuō),知道自己的差距難道不是更好嗎?無(wú)論如何,這些不足最終都會(huì)顯現(xiàn)出來(lái),很可能發(fā)生在多年以后,而那時(shí)再要彌補(bǔ)就難上加難了。更應(yīng)該思考的是如何改進(jìn)標(biāo)準(zhǔn)化測(cè)試,而不是試圖完全取消它。
傳統(tǒng)的標(biāo)準(zhǔn)化測(cè)試缺乏透明度和靈活性,這既是因?yàn)閯?chuàng)建測(cè)試項(xiàng)目的費(fèi)用高昂,也是因?yàn)檫@些項(xiàng)目必須確保安全;如果其中任何一個(gè)項(xiàng)目泄密,整個(gè)測(cè)試就會(huì)失效。另一方面,如果你有一個(gè)易于訪問(wèn)的在線平臺(tái),可以從一個(gè)龐大的題庫(kù)中進(jìn)行自適應(yīng)測(cè)試,那么你就可以讓更多的利益相關(guān)者隨時(shí)嘗試測(cè)試,而不會(huì)破壞測(cè)試。這 是因?yàn)樽赃m應(yīng)測(cè)試會(huì)根據(jù)每個(gè)學(xué)生在之前問(wèn)題上的表現(xiàn),為他們提供不同的問(wèn)題序列。兩個(gè)學(xué)生不太可能看到同一套題目。
生成式人工智能具有幫助解決所有這些問(wèn)題的潛力。大語(yǔ)言模型還不足以完全獨(dú)立創(chuàng)作出高質(zhì)量的測(cè)試題目,但它們可以幫助出題人 / 審題人提高工作效率。最終,這將使我們能夠用同樣的資源設(shè)計(jì)出更多的試題,從而實(shí)現(xiàn)新一輪更加透明、更易獲取的評(píng)價(jià)。
在歷史上,要廣泛評(píng)價(jià)這些更細(xì)微的任務(wù),成本高得令人望而卻步。即使是最基本的開(kāi)放式試題,也需要專業(yè)的人類評(píng)審員使用復(fù)雜的評(píng)分標(biāo)準(zhǔn)和系統(tǒng)來(lái)確保一致性。類似于博士論文答辯或求職面試的更豐富的評(píng)價(jià)歷來(lái)無(wú)法大規(guī)模進(jìn)行。最新一代的大語(yǔ)言模型有可能讓我們以更 經(jīng)濟(jì)、更普適的方式進(jìn)行這類豐富的評(píng)價(jià)。
當(dāng)然,使用人工智能進(jìn)行評(píng)價(jià)可能會(huì)引起人們的警惕。如果 人工智能存在無(wú)法立即察覺(jué)的偏見(jiàn)怎么辦?如果它犯了錯(cuò)誤怎么辦?我試圖將這種假設(shè)與現(xiàn)狀進(jìn)行比較。目前的評(píng)價(jià)是由深思熟慮但容易犯錯(cuò)的人類完成的,他們都帶有自己的偏見(jiàn)。
這并不是說(shuō)我們應(yīng)該盲目地認(rèn)可人工智能評(píng)價(jià)。事實(shí)上,很多人會(huì)利用它做出一些糟糕的、充滿偏見(jiàn)的評(píng)價(jià)。不過(guò),通過(guò)適當(dāng)?shù)年P(guān)懷、透明度和監(jiān)管措施,我們就能降低風(fēng)險(xiǎn),開(kāi)發(fā)出比現(xiàn)在的評(píng)價(jià)更豐富、更準(zhǔn)確、更公平的評(píng)價(jià)方式。這將對(duì)整個(gè)教育系統(tǒng)產(chǎn)生積極的影響,重新打開(kāi)優(yōu)質(zhì)教育的大門,促使教育系統(tǒng)更加關(guān)注人的全面發(fā)展。
大學(xué)的篩選機(jī)制還有效嗎?
在美國(guó),大學(xué)的篩選機(jī)制包括日常的學(xué)習(xí)成績(jī)、標(biāo)準(zhǔn)化測(cè)試、課外活動(dòng)、論文和推薦信。除了難以更改結(jié)果的學(xué)習(xí)成績(jī)和標(biāo)準(zhǔn)化測(cè)試,課外活動(dòng)、論文和推薦信一直是作弊的重災(zāi)區(qū),在大語(yǔ)言模型出現(xiàn)之前就已如此。
2019年3月12日,美國(guó)破獲了一起大學(xué)招生舞弊案,數(shù)十名富豪權(quán)貴被指控通過(guò)賄賂和欺詐手段,幫助子女進(jìn)入包括耶魯、斯坦福、加州洛杉磯分校等頂尖名校,這就是著名的“校園藍(lán)調(diào)”丑聞。
“校園藍(lán)調(diào)”的核心人物名叫威廉·辛格,他創(chuàng)辦了一家名為“升學(xué)專家”(The Edge College Consulting)的咨詢公司,專門偽造虛假的申請(qǐng)材料,專門幫助富裕家庭的孩子進(jìn)入名校。
事實(shí)上,無(wú)論存不存在舞弊,富裕的學(xué)生都會(huì)在申請(qǐng)學(xué)校的階段得到極大幫助。在硅谷,頂級(jí)顧問(wèn)的收費(fèi)大約是每小時(shí) 400 美元。協(xié)助一名學(xué)生完成一個(gè)大學(xué)錄取周期的費(fèi)用可達(dá)數(shù)萬(wàn)美元。這些水平較高的顧問(wèn)會(huì)就如何處理課外活動(dòng)和論文題目向?qū)W生提供建議,幫助選擇大學(xué),并就早期的論文草稿向?qū)W生提供周到的反饋。他們可能會(huì)對(duì)學(xué)生的論文進(jìn)行大量修改,實(shí)質(zhì)上是在替學(xué)生寫(xiě)論文。
顯然,像 ChatGPT 這樣的工具更容易為負(fù)擔(dān)不起高價(jià)顧問(wèn)的廣大人群所使用。從積極的一面來(lái)看,生成式人工智能可以幫助縮小貧富差距。從消極的一面看,道德水平較低的學(xué)生很可能會(huì)嘗試突破極限,使道德水平較高的學(xué)生處于不利地位。
招生負(fù)責(zé)人需要考慮的新問(wèn)題是,學(xué)生提供的材料是否還具有說(shuō)服力?
要解決這個(gè)問(wèn)題,首先值得質(zhì)疑的是,為什么要把論文和推薦信作為招生的一部分。在大多數(shù)國(guó)家,進(jìn)入名牌大學(xué)是一個(gè)相當(dāng)客觀的過(guò)程。在印度,印度理工學(xué)院(IITs)的錄取完全基于聯(lián)合入學(xué)考試(JEE)。印度理工學(xué)院招收考試分?jǐn)?shù)最高的學(xué)生,但也為一些代表性不足的群體設(shè)置配額。分?jǐn)?shù)最高的學(xué)生不僅可以選擇自己心儀的校區(qū),還可以優(yōu)先選擇專業(yè),錄取不涉及論文、推薦信或課外活動(dòng)等任何主觀因素。
當(dāng)然,美國(guó)的頂尖學(xué)府面臨的情況有些不同,它們的申請(qǐng)者眾多,如果只按照成績(jī)排序,它們可以招到遠(yuǎn)超他們計(jì)劃數(shù)量的,擁有完美成績(jī)的學(xué)生。這迫使它們不得不采取一些主觀的方式去評(píng)價(jià)學(xué)生,即通過(guò)論文、課外活動(dòng)和推薦信來(lái)衡量學(xué)生的個(gè)性和背景。
學(xué)生是否克服了困難?他們看起來(lái)有協(xié)作精神嗎?他們將來(lái)是否有可能對(duì)世界產(chǎn)生影響?對(duì)十七八歲的年輕人來(lái)說(shuō),這些都是很大、很深?yuàn)W的問(wèn)題。很多人都會(huì)懷疑,招生官能否根據(jù)一些受外界影響較大的文章和推薦信來(lái)判斷學(xué)生的這些品質(zhì)。
課外活動(dòng)可以說(shuō)是學(xué)生領(lǐng)導(dǎo)力或社會(huì)責(zé)任感更具體的體現(xiàn),但這也很難判斷。學(xué)生是靠自己的努力贏得了國(guó)際科學(xué)展嗎?他們的研究課題是心臟病,而他們的母親是一名心臟病學(xué)家,這是巧合嗎?志愿者的工作是實(shí)質(zhì)性工作,還是只是聽(tīng)起來(lái)讓人印象深刻的工作?
這一切都導(dǎo)致了美國(guó)競(jìng)爭(zhēng)激烈的大學(xué)招生中的隨機(jī)性,任何參與過(guò)這一過(guò)程的人都清楚這一點(diǎn)。許多最聰明、最善于合作、最有才華的人被拒絕的次數(shù)遠(yuǎn)遠(yuǎn)超出了人們的預(yù)期。
訪問(wèn)任何一所頂尖大學(xué),你都會(huì)遇到許多令人印象深刻的年輕人。同時(shí),你也可能會(huì)遇到許多在學(xué)業(yè)上掙扎的學(xué)生,或者似乎沒(méi)有體現(xiàn)出謙遜、協(xié)作或領(lǐng)導(dǎo)力等特質(zhì)的學(xué)生。大多數(shù)人認(rèn)為,這些學(xué)生非常善于在論文中構(gòu)建關(guān)于自己的敘事,并在系統(tǒng)中進(jìn)行博弈,或者他們的家庭很善于雇人幫他們做這件事。
我們需要有更標(biāo)準(zhǔn)化的方法來(lái)評(píng)價(jià)“軟技能”,如領(lǐng)導(dǎo)力、協(xié)作和同理心。如果這些評(píng)價(jià)能夠與準(zhǔn)確評(píng)價(jià)學(xué)生學(xué)術(shù)能力的方法結(jié)合起來(lái),將會(huì)更加美妙。這種思路早在人工智能出現(xiàn)之前就已經(jīng)存在,但人工智能將把事情推向另一個(gè)高度。
想象一下,如果全國(guó)每個(gè)人都有同一個(gè)老師。這個(gè)老師其實(shí)是一個(gè)很好的仲裁者,生成式人工智能就會(huì)是這個(gè)新老師。
人工智能代理甚至有可能親自為學(xué)生擔(dān)保,就像熟悉學(xué)生的老師一樣。你可以這樣想像 Khanmigo 這樣的人工智能助手已經(jīng)與你合作了一段時(shí)間,它了解你的優(yōu)勢(shì)和愛(ài)好,并能擬真地描繪出有關(guān)你的動(dòng)態(tài)圖景。到了申請(qǐng)大學(xué)的時(shí)候,人工智能可以為你寫(xiě)推薦信。每一位使用該平臺(tái)的學(xué)生的推薦信都是標(biāo)準(zhǔn)化的,只是它根據(jù)與每一位學(xué)習(xí)者相處的經(jīng)驗(yàn)擁有不同的記憶。
過(guò)去,招生面試通常由與學(xué)生居住在同一地區(qū)的校友進(jìn)行,并不是對(duì)所有候選學(xué)生進(jìn)行統(tǒng)一面試,而且面試結(jié)果也存在相當(dāng)大的差異。 他們可以幫助招生官篩選出有明顯問(wèn)題的申請(qǐng)者,但對(duì)大部分在紙面上看起來(lái)很優(yōu)秀的學(xué)生來(lái)說(shuō),面試起到的篩選作用很有限
人工智能使這一過(guò)程的可擴(kuò)展性、一致性和可審計(jì)性大大提高。在這種情況下,人工智能可以持續(xù)地總結(jié)學(xué)生與面試人員的互動(dòng)情況,并根據(jù)招生辦公室創(chuàng)建的評(píng)分標(biāo)準(zhǔn)從多個(gè)維度對(duì)其進(jìn)行評(píng)分。
當(dāng)然,這會(huì)引發(fā)雙向偏見(jiàn)的擔(dān)憂。有些偏見(jiàn)是你想要看到的。你希望這個(gè)過(guò)程人工智能將偏向于有思想、善于合作的年輕人,而不是出現(xiàn)性別、種族、宗教或地域偏見(jiàn)。百分之百無(wú)偏見(jiàn)的解決方案似乎是不可能的,但這不應(yīng)該成為障礙。相反,任何人工智能系統(tǒng)都需要明顯優(yōu)于現(xiàn)實(shí)招生體系,而現(xiàn)實(shí)招生體系通常會(huì)涉及各種偏見(jiàn)。
這不是隨便說(shuō)說(shuō)的,2023年6月29日,美國(guó)最高法院以6比2的投票結(jié)果裁定,哈佛大學(xué)的種族平衡招生政策歧視亞裔申請(qǐng)人,違反了美國(guó)憲法第十四修正案的平等保護(hù)條款。
這項(xiàng)訴訟持續(xù)了將近十年的時(shí)間,原告是學(xué)生公平錄取組織(Students for Fair Admissions,簡(jiǎn)稱SFFA)。2014年11月17日,該組織指控哈佛大學(xué)在本科生錄取過(guò)程中對(duì)亞裔美國(guó)申請(qǐng)人采取了種族歧視政策,導(dǎo)致亞裔學(xué)生被錄取的可能性低于其他族裔的學(xué)生。
事實(shí)上,在 2018 年聯(lián)邦最高法院審理的一起案件中,明確證實(shí)哈佛大學(xué)的招生官一直對(duì)亞裔美國(guó)人申請(qǐng)者的個(gè)性特征評(píng)分較低,甚至常常武斷地推翻面試官的觀察結(jié)果。哈佛大學(xué)的錄取程序從“學(xué)術(shù)”、“課外”、“體育”、“個(gè)人”和“整體”五個(gè)方面對(duì)申請(qǐng)者進(jìn)行評(píng)分,按照 1~6 分對(duì)學(xué)生進(jìn)行排名,1 分為最好。
白人申請(qǐng)者的個(gè)人評(píng)分高于亞裔美國(guó)人,21.3% 的白人申請(qǐng)者能獲得 1 分或 2 分,而亞裔美國(guó)人只有 17.6% 的人獲此分?jǐn)?shù)。校友面試官給亞裔美國(guó)人的個(gè)人評(píng)分與白人申請(qǐng)者相當(dāng),但招生辦公室給亞裔美國(guó)人的評(píng)分是所有種族群體中最差的。
在這場(chǎng)重大訴訟之后,這些數(shù)據(jù)才浮出水面。在大多數(shù)情況下,這個(gè)非常不透明的過(guò)程中蘊(yùn)含的偏見(jiàn)被很好地隱藏了起來(lái)。基于人工智能的面試官和評(píng)審員的強(qiáng)大之處在于它們可以被審計(jì)。你可以用具有相同資質(zhì)、不同人口統(tǒng)計(jì)學(xué)特征的申請(qǐng)者對(duì)它們進(jìn)行測(cè)試,并公布結(jié)果,以確保不同種族、性別或背景之間的一致性。
人工智能并沒(méi)有給大學(xué)招生帶來(lái)新的問(wèn)題,而是迫使我們認(rèn)識(shí)到現(xiàn)有大學(xué)招生的不足,同時(shí)提供了積極變革的可能性。審慎地使用人工智能,再加上一點(diǎn)不斷求索的勇氣,或許能讓我們邁向一個(gè)更加公平、更加透明的世界。
薩爾曼·可汗
作為全球最大的非盈利教育機(jī)構(gòu)——可汗學(xué)院的創(chuàng)始人,薩爾曼·可汗應(yīng)OpenAI聯(lián)合創(chuàng)始人山姆·奧特曼之邀,作為世界上首批 GPT-4測(cè)試者,深度體驗(yàn)了人工智能與教育的全方位融合,從而形成了他的獨(dú)特思考。
在這本書(shū)里,他不僅分析了人工智能在個(gè)性化學(xué)習(xí)、課程設(shè)計(jì)、學(xué)生評(píng)估和教育公平性方面的應(yīng)用,還探討了人工智能技術(shù)如何幫助教育工作者更好地理解學(xué)生需求,從而設(shè)計(jì)出更具吸引力和效果的教學(xué)方法。此外,他還著重討論了人工智能技術(shù)對(duì)家庭教育的影響,指導(dǎo)家長(zhǎng)如何在家庭環(huán)境中應(yīng)用人工智能工具,更好引導(dǎo)孩子學(xué)習(xí),培養(yǎng)孩子自主學(xué)習(xí)的能力。