AI爬蟲“狂啃”維基媒體資源,運營開支壓力山大?
近期,維基媒體基金會,這一運營著全球知名在線百科全書維基百科的非營利組織,透露了一項令人關(guān)切的運營挑戰(zhàn)。該基金會在一篇博文中指出,專為AI訓(xùn)練數(shù)據(jù)集抓取資源的網(wǎng)絡(luò)爬蟲活動正對其造成前所未有的運營開支壓力。
維基百科的關(guān)聯(lián)項目——維基共享資源,作為一個龐大的多媒體資料庫,長期以來吸引著各類用戶。然而,自2024年初以來,從該平臺下載多媒體內(nèi)容的帶寬使用量激增了50%,這一增長主要由自動化程序驅(qū)動,而非傳統(tǒng)的人類用戶行為。
維基媒體基金會以往能夠有效應(yīng)對突發(fā)事件引發(fā)的人類用戶流量高峰,但AI時代網(wǎng)絡(luò)爬蟲活動的頻繁加劇,正逐漸侵蝕其系統(tǒng)冗余,迫使基金會將寶貴的時間和資源投入到應(yīng)對非人類流量上。這不僅影響了用戶體驗,也增加了運營成本。
基金會的數(shù)據(jù)存儲策略是,低頻內(nèi)容存放在核心數(shù)據(jù)中心,而高頻內(nèi)容則在更靠近用戶的數(shù)據(jù)中心備份。然而,網(wǎng)絡(luò)爬蟲的“遍歷式”查詢模式導(dǎo)致大量流量涌向核心數(shù)據(jù)中心,從而推高了流量成本。據(jù)統(tǒng)計,盡管機器人瀏覽量僅占總體的35%,但它們卻消耗了核心數(shù)據(jù)中心65%的流量資源。
更令人擔(dān)憂的是,這些自動爬蟲不僅訪問了公開資源,甚至還試圖訪問維基媒體基金會開發(fā)環(huán)境的關(guān)鍵系統(tǒng),如代碼審查平臺和錯誤跟蹤器,這進一步加劇了安全風(fēng)險和運營負擔(dān)。
維基媒體基金會強調(diào),盡管其提供的所有內(nèi)容是免費的,但維護這些內(nèi)容的基礎(chǔ)設(shè)施并非無成本。基金會呼吁建立一個負責(zé)任、可持續(xù)的基礎(chǔ)設(shè)施使用規(guī)范,以避免“公地悲劇”的重演,即公共資源因過度使用而遭受破壞。
面對這一挑戰(zhàn),維基媒體基金會正積極尋求解決方案,以確保維基百科及其姊妹項目的持續(xù)健康發(fā)展。同時,該基金會也呼吁社會各界關(guān)注并支持其工作,共同維護這一寶貴的全球知識共享平臺。
為了應(yīng)對日益增長的自動化訪問需求,維基媒體基金會也在探索技術(shù)創(chuàng)新,如優(yōu)化數(shù)據(jù)存儲策略、提升系統(tǒng)冗余度以及加強安全防護措施等,以期在保障用戶體驗的同時,有效控制運營成本。
?????投稿郵箱:jiujiukejiwang@163.com ??詳情訪問99科技網(wǎng):http://www.hacbq.cn
馬斯克xAI籌巨資,劍指五年5000萬塊H100等效算力,
原標(biāo)題:馬斯克xAI籌巨資,劍指五年5000萬塊H100等效算力,領(lǐng)跑AI軍備競賽 近期
行業(yè)資訊2025-07-23
OPPO攜手阿里云,大數(shù)據(jù)平臺實現(xiàn)云端遷移新突破
近期,阿里云宣布與智能手機制造商OPPO攜手,成功將OPPO龐大的大數(shù)據(jù)平臺遷移
快資訊2025-07-22
頭條資訊
推薦資訊





















