近日,在海南省??谑信e辦的全國信標(biāo)委人工智能分委會“標(biāo)準(zhǔn)周”活動期間,國內(nèi)首張大模型高階通用能力國家標(biāo)準(zhǔn)符合性測試證書正式頒發(fā),標(biāo)志著我國大模型高階通用能力評測實(shí)現(xiàn)標(biāo)準(zhǔn)化落地,為大模型產(chǎn)業(yè)規(guī)范化發(fā)展樹立了關(guān)鍵里程碑。
為破解大模型高階能力評測缺乏統(tǒng)一標(biāo)準(zhǔn)的行業(yè)痛點(diǎn),中國電子技術(shù)標(biāo)準(zhǔn)化研究院于2025年9月啟動“求索”大模型高階通用能力測試工作。其中,大模型高階通用能力聚焦復(fù)雜邏輯處理、代碼應(yīng)用實(shí)踐、多模態(tài)交互等產(chǎn)業(yè)核心需求場景,構(gòu)建了涵蓋深度推理與復(fù)雜問題求解(含數(shù)學(xué)推理、圖表推理)、代碼理解與生成(含意圖優(yōu)化、多語言代碼生成)、多模態(tài)理解與生成(含行為識別、視頻問答、文本生成視頻等)的全維度評測框架。測試全過程嚴(yán)格遵循國家標(biāo)準(zhǔn)GB/T 45288.2-2025《人工智能 第2部分:評測指標(biāo)與方法》,通過科學(xué)量化的指標(biāo)體系,確保評測結(jié)果的權(quán)威性、公正性與可比性,為行業(yè)提供了清晰的技術(shù)發(fā)展導(dǎo)向。
中國電信自主研發(fā)的星辰語義大模型依托國產(chǎn)算力與訓(xùn)練框架研制,是國內(nèi)唯一全國產(chǎn)、全尺寸、全開源的基礎(chǔ)大模型。模型訓(xùn)練攻克國產(chǎn)萬卡集群長穩(wěn)訓(xùn)練技術(shù)難題,國產(chǎn)萬卡集群利用率高達(dá)98%,訓(xùn)練效能較英偉達(dá)同等算力達(dá)93%。模型綜合能力達(dá)到業(yè)界較高水平,當(dāng)前已成功研發(fā)的多款核心基礎(chǔ)模型中,2025年上半年的TeleChat2.5系列35B、115B模型綜合能力表現(xiàn)優(yōu)異,2025年12月TeleChat3-105B正式開源,為國內(nèi)首個全國產(chǎn)化訓(xùn)練的千億參數(shù)細(xì)粒度 MoE模型,同步開源稠密參數(shù)模型TeleChat3-36B,綜合能力在MMLU-Pro、Math-500等多項(xiàng)權(quán)威評測基準(zhǔn)中位列同等規(guī)模參數(shù)開源模型TOP3。模型競爭力獲得行業(yè)廣泛認(rèn)可,開源社區(qū)累計(jì)下載量超50萬次,斬獲中國通信學(xué)會《2024年度十大科技進(jìn)展》、2025世界人工智能大會卓越人工智能引領(lǐng)者獎(SAIL獎)等多項(xiàng)權(quán)威榮譽(yù)。
目前星辰系列語義大模型已實(shí)現(xiàn)規(guī)?;瘧?yīng)用,全面支撐了各類toC、toH和產(chǎn)數(shù)類項(xiàng)目的交付。toC、toH方面,包括星小辰、AI眼鏡、云智手機(jī)在內(nèi)的多款產(chǎn)品中,上線了意圖理解、AI代接、自由對話等多項(xiàng)自主研發(fā)能力,在實(shí)際業(yè)務(wù)中為用戶帶來了較好的交互體驗(yàn)。產(chǎn)數(shù)業(yè)務(wù)在電信集團(tuán)內(nèi)部的知識采編、通信助理、數(shù)字人客服等場景落地,覆蓋全國31省,對外賦能中車、國能、航天等企業(yè),真正推動芯片、模型、應(yīng)用全鏈條自主可控,全面提升了我國在通用人工智能領(lǐng)域的自主創(chuàng)新能力。(董芳忠)
(責(zé)任編輯:蔡文斌)