騰訊云TACO-LLM加速模塊，榮耀AI底座性能飛躍新高度

2025-06-10 06:32來源：今日頭條編輯：張易川

掃一掃

分享文章到微信

掃一掃

關注99科技網(wǎng)微信公眾號

復制網(wǎng)址

　　在生成式AI技術飛速發(fā)展的浪潮中，手機行業(yè)正經(jīng)歷著前所未有的變革。各大手機制造商紛紛將AI技術融入其最新產(chǎn)品中，并以驚人的速度進行迭代升級。榮耀作為行業(yè)內(nèi)的佼佼者，更是在AI大模型的部署上邁出了重要一步。

　　為了提升大模型部署的效能，榮耀選擇了騰訊云TencentOS Server AI中的TACO-LLM加速模塊，并成功將其應用于DeepSeek-R1等開源大模型的部署中。這一舉措不僅限于技術層面的嘗試，更在實際應用中取得了顯著成效。榮耀在企業(yè)內(nèi)部等多個場景中，通過TACO-LLM加速模塊的加持，實現(xiàn)了穩(wěn)定性、可靠性和推理性能的全面提升。

　　在推理平臺場景中，榮耀尤為注重框架效能、穩(wěn)定性、運行狀態(tài)監(jiān)控及應急預案等關鍵特性。在DeepSeek-R1滿血版場景下，使用TACO-LLM進行推理任務后，相較于榮耀原始線上業(yè)務性能，首Token延遲（TTFT）P95的響應時間降低了最高達6.25倍，吞吐量則提升了2倍，端到端延遲更是降低了100%。而在社區(qū)最新版本sglang場景下，TTFT P95的響應時間更是實現(xiàn)了最高12.5倍的降低。

　　TACO-LLM之所以能夠為榮耀的業(yè)務性能帶來如此顯著的提升，主要得益于其獨特的投機采樣技術核心能力。傳統(tǒng)的大語言模型自回歸解碼屬性在GPU算力利用上存在不足，計算效率低下，解碼成本高昂。而TACO-LLM通過投機采樣的方式，從根本上解決了這一問題，實現(xiàn)了大模型的“并行”解碼，從而顯著提高了解碼效率。

　　榮耀大數(shù)據(jù)平臺部的相關負責人對此表示：“通過采用騰訊云的TACO-LLM技術，榮耀成功打造了高性能的AI底座。這一底座不僅部署穩(wěn)定可靠，更在性能加速方面為我們帶來了前所未有的體驗。”這一評價無疑是對TACO-LLM加速模塊在榮耀實際應用中成效的最好證明。

　　TencentOS Server AI加速版中的TACO-LLM加速模塊，針對企業(yè)級AI模型私有化部署的挑戰(zhàn)，進行了專門的內(nèi)核運行優(yōu)化。這一優(yōu)化旨在提高大語言模型的推理效能，提供兼顧高吞吐和低延時的優(yōu)化方案。更重要的是，TACO-LLM加速模塊能夠“無縫”整合到現(xiàn)有的大模型部署方案中，為榮耀等企業(yè)的AI應用提供了更加便捷和高效的解決方案。

?????投稿郵箱：jiujiukejiwang@163.com ??詳情訪問99科技網(wǎng)：http://www.hacbq.cn

相關推薦