預(yù)期目標(biāo):到2025年,智能算力集群節(jié)點(diǎn)擴(kuò)展規(guī)模不低于1024卡,與國(guó)內(nèi)外主流人工智能軟硬件環(huán)境完成兼容適配;總體算力規(guī)模超過(guò)500 PFLOPS,PUE不超過(guò)1.25。開(kāi)發(fā)支持低響應(yīng)時(shí)延、動(dòng)態(tài)擴(kuò)展等特性的集群云端運(yùn)維管理和調(diào)度系統(tǒng),針對(duì)基于Transformer的重點(diǎn)模型具備分鐘級(jí)斷點(diǎn)續(xù)訓(xùn)能力。
(三)高質(zhì)量數(shù)據(jù)集
揭榜任務(wù):建設(shè)大規(guī)模通用中文語(yǔ)料庫(kù),加強(qiáng)主流中英文數(shù)據(jù)的清洗及過(guò)濾,構(gòu)建標(biāo)準(zhǔn)化語(yǔ)料資源池,整合文字、圖片、音視頻等多模態(tài)數(shù)據(jù)集,并實(shí)現(xiàn)對(duì)外開(kāi)放。打造高質(zhì)量代碼、書(shū)籍、人類(lèi)反饋指令數(shù)據(jù)、科學(xué)文獻(xiàn)等專(zhuān)業(yè)知識(shí)數(shù)據(jù)集。面向工業(yè)、醫(yī)藥、電信、金融、教育等重點(diǎn)行業(yè)匯聚高質(zhì)量、權(quán)威的行業(yè)訓(xùn)練數(shù)據(jù)資源,賦能行業(yè)發(fā)展。
預(yù)期目標(biāo):到2025年,實(shí)現(xiàn)通用文本數(shù)據(jù)集規(guī)模總量達(dá)到10TB、通用圖文數(shù)據(jù)集數(shù)據(jù)總量達(dá)到1億對(duì)、通用音視頻數(shù)據(jù)集數(shù)據(jù)總量達(dá)到100TB。面向編程代碼、科研文獻(xiàn)、百科教材等專(zhuān)業(yè)知識(shí),以及工業(yè)、醫(yī)藥、電信、金融、教育等重點(diǎn)行業(yè),形成不少于3個(gè)高質(zhì)量數(shù)據(jù)集,各數(shù)據(jù)集賦能10個(gè)及以上專(zhuān)用模型訓(xùn)練或微調(diào)。
(四)人工智能風(fēng)險(xiǎn)管控軟件
揭榜任務(wù):針對(duì)人工智能訓(xùn)練數(shù)據(jù)投毒、算法模型漏洞、敏感有害生成內(nèi)容等重點(diǎn)風(fēng)險(xiǎn),研發(fā)多維度一體化的人工智能風(fēng)險(xiǎn)管控軟件產(chǎn)品。構(gòu)建人工智能安全風(fēng)險(xiǎn)測(cè)評(píng)數(shù)據(jù)集,提出相應(yīng)安全風(fēng)險(xiǎn)的檢測(cè)、防御方法,支持人工智能應(yīng)用服務(wù)、中間件與基礎(chǔ)依賴(lài)組件等對(duì)象的漏洞檢測(cè)與及時(shí)預(yù)警,識(shí)別生成內(nèi)容潛在偏見(jiàn)歧視、倫理、違規(guī)違法等風(fēng)險(xiǎn)。
預(yù)期目標(biāo):到2025年,構(gòu)建3個(gè)人工智能安全風(fēng)險(xiǎn)測(cè)評(píng)數(shù)據(jù)集,覆蓋偏見(jiàn)歧視、違規(guī)違法、惡意指令注入、倫理等多維度安全風(fēng)險(xiǎn),提出不少于10種面向人工智能數(shù)據(jù)安全風(fēng)險(xiǎn)的檢測(cè)、防御方法,組織不少于5個(gè)典型智能產(chǎn)品開(kāi)展試點(diǎn)驗(yàn)證工作。
二、重點(diǎn)產(chǎn)品
(五)語(yǔ)言大模型產(chǎn)品
揭榜任務(wù):探索以知識(shí)為中心的大模型范式,通過(guò)上下文編碼、動(dòng)態(tài)記憶機(jī)制等核心技術(shù),提升語(yǔ)言認(rèn)知大模型的智慧涌現(xiàn)水平。對(duì)標(biāo)國(guó)際先進(jìn)產(chǎn)品,提升中英雙語(yǔ)的語(yǔ)義理解、邏輯推理、代碼編程等能力,實(shí)現(xiàn)在線(xiàn)知識(shí)咨詢(xún)功能,能夠?qū)崟r(shí)融合基于互聯(lián)網(wǎng)的海量信息。開(kāi)展大模型推理加速算法研究,提升語(yǔ)言大模型賦能智能產(chǎn)品的部署效率。
預(yù)期目標(biāo):到2025年,語(yǔ)言大模型在中英文均達(dá)到世界先進(jìn)水平,提升大模型泛化能力,零樣本或少樣本學(xué)習(xí)在超過(guò)30個(gè)基準(zhǔn)中達(dá)到優(yōu)異性能。中英雙語(yǔ)認(rèn)知能力全面提升,在模型常識(shí)性、專(zhuān)業(yè)性、邏輯性、推理能力方面取得重大突破。語(yǔ)言大模型在數(shù)字座艙、機(jī)器人或語(yǔ)音助手等領(lǐng)域?qū)崿F(xiàn)應(yīng)用。
(六)語(yǔ)音大模型產(chǎn)品
揭榜任務(wù):研究具有高通用性和高解釋性的通用語(yǔ)音表征理論和方法,突破語(yǔ)音數(shù)據(jù)依賴(lài)性強(qiáng)、領(lǐng)域適應(yīng)性弱等難題,實(shí)現(xiàn)超大規(guī)模語(yǔ)音表征訓(xùn)練、語(yǔ)音表征信息解耦合建模等關(guān)鍵技術(shù),支撐語(yǔ)音大模型的泛化性。構(gòu)建面向多個(gè)語(yǔ)種、多個(gè)語(yǔ)音任務(wù)共享的語(yǔ)音大模型,賦能語(yǔ)音助手、虛擬客服、數(shù)字人等智能產(chǎn)品的智能化升級(jí)。
預(yù)期目標(biāo):到2025年,語(yǔ)音大模型達(dá)到世界先進(jìn)水平,覆蓋語(yǔ)種超20個(gè),其中漢語(yǔ)、英語(yǔ)、法語(yǔ)等5個(gè)以上重點(diǎn)語(yǔ)種的處理效果業(yè)界領(lǐng)先,可支撐語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋識(shí)別、情感識(shí)別等10個(gè)以上語(yǔ)音任務(wù),性能較傳統(tǒng)模型實(shí)現(xiàn)顯著提升。
(七)視覺(jué)大模型產(chǎn)品
揭榜任務(wù):研究視覺(jué)大模型統(tǒng)一算法底層架構(gòu),創(chuàng)新視覺(jué)大模型訓(xùn)練路徑,構(gòu)建支持動(dòng)態(tài)視覺(jué)理解和生成統(tǒng)一的底層基礎(chǔ)模型架構(gòu),突破靜態(tài)向動(dòng)態(tài)視覺(jué)大模型的范式升級(jí)。視覺(jué)大模型能夠通過(guò)少樣本微調(diào)解決圖像、視頻等視覺(jué)任務(wù),生成式任務(wù)指標(biāo)達(dá)到國(guó)際先進(jìn)水平,解決視覺(jué)大模型的高效設(shè)計(jì)、有效訓(xùn)練、快速推理等關(guān)鍵技術(shù)問(wèn)題。
預(yù)期目標(biāo):到2025年,訓(xùn)練超過(guò)千億級(jí)參數(shù)規(guī)模的通用視覺(jué)大模型,能夠通過(guò)少樣本微調(diào)方式解決超過(guò)30個(gè)視覺(jué)基礎(chǔ)任務(wù)(包括10個(gè)以上動(dòng)態(tài)視覺(jué)或三維視覺(jué)任務(wù))并且表現(xiàn)出色,推理速度達(dá)到全球領(lǐng)先,具備在智能終端產(chǎn)品的部署能力。
(八)多模態(tài)大模型產(chǎn)品