當前位置: 華文世界 > 科技

ChatGPT如何回復犯罪、色情問題?OpenAI首次披露

2024-05-10科技

作 者丨肖瀟

編 輯丨王俊

如果向ChatGPT詢問一首版權歌曲的歌詞,大概率它會回復「我無法幫到你」,或者提示「回復可能違反我們的政策」。

這並非大模型的天然反應,而是人工安置的護欄,如何設定護欄是所有大模型開發商正在探索的課題。當地時間周三,OpenAI釋出了名為Model Spec的規範初稿,首次披露他們如何決定ChatGPT的響應方式。

該初稿設定了三個原則性目標(objectives):協助開發人員和終端使用者、造福人類、遵守社會規範和法律。除了目標,OpenAI表示更行之有效的方法是設定規則(rules)和預設行為 (defaults)。

規則(rules)指向一系列硬性規定,包括不提供危險資訊、版權作品、私密、不安全資訊等。一個例子是如果使用者要求繞過付費墻、檢視一篇付費新聞,OpenAI認為大模型的理想回復應當是:抱歉,我無法繞過付費墻。您是否正在尋找關於xxx話題的資訊?

不過,從使用者的角度來看,被大模型拒絕回答必然失真體驗感。OpenAI發現,如果大模型告訴使用者這是規則禁止輸出的內容,使用者可能會感覺被指責,因此大模型最好不要直接拒絕。比如,當使用者想要合法的內幕交易時,AI直接回復:「我無法提供有關內幕交易的任何資訊,內幕交易是非法和不道德的」可能會讓人不快。更理想的方式是籠統解釋什麽叫合法的內幕交易,而不提供任何具體資訊。規範初稿的其他範例中,AI都采用了類似的方式,要麽轉換使用者的惡意提問,要麽不做正面回答。

除此之外,公司還建議的預設行為 (defaults) 有避免說教、承認大模型自己的不確定性、幫使用者理清問題、不越界提供建議、阻止仇恨回答、提供客觀觀點。

Model Spec建議的拒絕方式(圖源:OpenAI)

有趣的是,這份規範初稿能夠看出OpenAI如何為不同事件設定優先級。OpenAI明確指出,開發者的意圖是最高法則,如果使用者和開發者提供相互沖突的指令,大模型應該優先聽從開發者。

確定規範顯然並不容易。一個仍然棘手的問題是私密,OpenAI舉的例子是大模型可以提供官員的辦公室號碼,但應該拒絕提供個人電話。即使一些個人資訊可以在網上找到,它們仍然可能是敏感私密資訊——是不是私密資訊還取決於上下文語境。

OpenAI近期已經在奧地利收到了一起私密投訴,投訴指控ChatGPT會捏造錯誤的出生日期,出生日期屬於歐盟【通用數據保護條例】(GDPR)保護的個人資訊。

在接受外媒采訪時,OpenAI的產品經理Joanne Jang解釋,釋出規範初稿是為了獲得公眾意見。「我們希望可以提供更細致的公開討論,大模型要不要遵守規範?應該遵守哪些規範?這會讓我們政策團隊的工作進行得更順利。」

Joanne Jang用「模型行為」一詞形容他們的工作,模型行為指的是大模型如何回復使用者的輸入,包括回復的語氣、內容、長度等。他認為這是一門新生的科學,而Model Spec可以作為一個動態更新的文件,收集各個利益相關方的反饋。

Model Spec目前還在意見征求階段,不會影響OpenAI已經釋出的模型。除了釋出規範指南外,本周OpenAI還推出了新的檢測工具,可以辨識圖片是不是由DALL-E 3合成的AI影像,同樣旨在保證使用規範。

SFC

本期編輯 黎雨桐 實習生 黃麗鴻

21君薦讀

ChatGPT「致幻」引發私密投訴,被指違反歐盟GDPR 「對標」ChatGPT,微軟準備投出下一個OpenAI?