一周AI大事:GPT-5.1"情商"大升級,“空間智能”正式上線(2)
銳評:話音未落,已轉錄成文。
4. 新聞:谷歌更新Android和iOS平臺上的Gemini Live,提供更具適應性和表現力的語音功能。用戶現在可以調整語速,聽到更細微的語調和節奏變化,還可以要求AI用不同角色的口音來講故事。新版應用還改進了AI對語言學習和練習對話的支持。此外,Gemini Live API中新增的本地音頻模型降低了延遲,提升了語音優先應用的性能。
銳評:除了不像人會喘氣,啥音都會。
5. 新聞:谷歌在其搜索的AI模式以及Gemini應用中推出了一整套AI購物工具。對話式購物功能可以從包含約500億個產品列表的圖譜中提取信息;“智能結賬”功能可跟蹤價格,并在商品價格降至用戶設定閾值以下時通過Google Pay自動下單;“讓Google致電”的智能體功能可代替用戶致電本地商店,查詢庫存和促銷信息。
銳評:這下網購花錢更快了。
6. 新聞:Terminal-Bench基準測試已更新至2.0版。Terminal-Bench是一個開源基準測試,包含89個實際終端任務,用于評估AI智能體在真實Shell環境中的操作能力。Terminal-Bench團隊還發布了基于容器的標準框架Harbor,可以讓不同智能體在相同任務上進行可復現的評估。Terminal-Bench的公開排行榜會跟蹤各智能體在終端AI自動化任務上的表現。
銳評:智能體考試也越來越難,還要比拼敲命令行。
7. 新聞:總部位于巴黎的H Company公司發布新一代多模態模型Holo Two,旨在推動跨平臺的計算機使用智能體。Holo Two模型有40億、80億和300億-A3B MoE三種規模,均是經過調優的視覺語言模型,用于在真實GUI(圖形用戶界面)中進行定位、導航和任務執行。這些模型使智能體能夠“查看”屏幕,并通過點擊和按鍵來控制屏幕;它們可以在網頁、桌面以及移動端運行。Holo Two模型現已開放權重并上線Hugging Face平臺。
銳評:能看屏幕、能點按鈕、能跑GUI,這不是把坐辦公室的活全包了嘛。
8. 新聞:新發布的Robyn是前醫生Jenny Shao創建的一款富有同理心的AI伴侶。作為一款iOS應用,Robyn的定位并非替代心理醫生,而是一個高情商的伙伴。它能記住用戶的詳細信息,具備長期跟蹤模式,可以提供關于壓力、情感依戀風格和習慣方面的見解,同時為了確保安全還內置了防護措施和危機響應流程。
銳評:明明白白你的心,渴望一份真感情。
9. 新聞:Gemini 3和Nano Banana 2即將發布。Gemini 3預覽版現已在LMArena上線,代號為“riftrunner”。谷歌新一代AI圖像模型Nano Banana 2也已以預覽形式出現在Gemini應用內。Nano Banana 2在角度和視點方面具備更強的類相機控制,改進了文本渲染能力,并采用多步驟的“規劃、生成、評估、修復”工作流,在呈現最終結果前會反復自我修正圖像。
銳評:還會反復糾錯,AI出圖這是要卷到用戶滿意為止。
三、AI研究動態:小模型打出大智慧,多語言多環境AI紛紛出爐
1. 新聞:Meta推出語音識別系統Omnilingual ASR,能支持超過1600種語言和方言。Meta表示,Omnilingual ASR是“被設計成一個社區驅動的框架”,其中包含一套用于自動語音識別 (ASR) 的新型開源AI模型和一個涵蓋350種冷門小語種的轉錄語音數據集。這些AI模型的參數量從3.5億到70億不等,均基于Meta的wav2vec 2.0架構開發。Meta在論文《Omnilingual ASR:支持1600多種語言的開源多語言語音識別》中公布了他們的研究成果。
?????投稿郵箱:jiujiukejiwang@163.com ??詳情訪問99科技網:http://www.hacbq.cn
亞馬遜云科技re:Invent 2025發布Nova 2系列,多款中國
在亞馬遜云科技舉辦的re:Invent 2025全球大會上,首席執行官Matt Garman宣布推出四
快資訊2025-12-04
iPhone 17系列立大功!蘋果10月全球份額24.2%:創歷
12月4日消息,據市場調研機構Counterpoint Research最新報告,2025年10月,蘋果在全球
快資訊2025-12-04
推薦資訊
















