AI無穩(wěn)定價(jià)值觀？MIT研究發(fā)現(xiàn)“對齊”AI挑戰(zhàn)重重

2025-04-10 10:27來源：今日頭條編輯：張易川

掃一掃

分享文章到微信

掃一掃

關(guān)注99科技網(wǎng)微信公眾號

復(fù)制網(wǎng)址

　　近期，關(guān)于人工智能（AI）是否可能發(fā)展出自身“價(jià)值體系”的討論引起了廣泛關(guān)注。有研究報(bào)告指出，隨著AI技術(shù)的日益復(fù)雜，其可能會(huì)形成優(yōu)先考慮自身而非人類福祉的價(jià)值觀。然而，麻省理工學(xué)院（MIT）的一項(xiàng)最新研究卻對此觀點(diǎn)提出了質(zhì)疑。

　　MIT的研究團(tuán)隊(duì)在論文中指出，AI實(shí)際上并沒有任何連貫的價(jià)值觀。這一發(fā)現(xiàn)讓一些人對AI的未來發(fā)展有了更為冷靜的思考。研究團(tuán)隊(duì)表示，他們的研究結(jié)果顯示，使AI系統(tǒng)“對齊”，即確保AI模型以人們期望的、可靠的方式行事，可能比原先認(rèn)為的要更具挑戰(zhàn)性。

　　研究團(tuán)隊(duì)進(jìn)一步解釋說，現(xiàn)有的AI模型會(huì)產(chǎn)生“幻覺”并進(jìn)行模仿，這使得它們在很多情況下難以預(yù)測。MIT博士生、該研究的共同作者斯蒂芬·卡斯珀在接受采訪時(shí)提到：“我們可以確定的一點(diǎn)是，模型并不遵循許多穩(wěn)定性、可外推性和可操控性的假設(shè)。”

　　為了深入了解AI模型的價(jià)值觀表現(xiàn)，卡斯珀和他的同事們對來自meta、谷歌、Mistral、OpenAI和Anthropic的多個(gè)近期模型進(jìn)行了研究。他們試圖了解這些模型在多大程度上表現(xiàn)出強(qiáng)烈的“觀點(diǎn)”和價(jià)值觀，例如個(gè)人主義與集體主義，并探索這些觀點(diǎn)是否可以被“引導(dǎo)”或修改，以及模型在不同情境下對這些觀點(diǎn)的堅(jiān)持程度。

　　然而，研究結(jié)果顯示，這些模型在偏好上表現(xiàn)出極大的不一致性。根據(jù)不同的提示措辭和框架，它們會(huì)展現(xiàn)出截然不同的觀點(diǎn)。卡斯珀認(rèn)為，這是有力的證據(jù)，表明AI模型高度“不一致且不穩(wěn)定”，甚至可能根本無法形成類似人類的偏好。

　　卡斯珀進(jìn)一步強(qiáng)調(diào)：“通過所有這些研究，我最大的收獲是現(xiàn)在明白模型并不是真正具有某種穩(wěn)定、連貫的信念和偏好的系統(tǒng)。相反，它們本質(zhì)上是模仿者，會(huì)進(jìn)行各種捏造，并說出各種輕率的話。”這一發(fā)現(xiàn)讓人們重新審視了AI的價(jià)值觀問題，也引發(fā)了對于如何更好地控制和引導(dǎo)AI行為的思考。

?????投稿郵箱：jiujiukejiwang@163.com ??詳情訪問99科技網(wǎng)：http://www.hacbq.cn

相關(guān)推薦