張宏偉:人工智能大模型賦能文化數(shù)字化

發(fā)布時(shí)間: 2024-04-24
【字體:

  3月28日,國(guó)家文化大數(shù)據(jù)體系建設(shè)工作推進(jìn)會(huì)在湖北省武漢市舉行,會(huì)議的主題是學(xué)習(xí)貫徹習(xí)近平文化思想,推動(dòng)國(guó)家文化數(shù)字化戰(zhàn)略落地落實(shí),加快推進(jìn)國(guó)家文化大數(shù)據(jù)體系建設(shè),為建設(shè)中華民族現(xiàn)代文明打牢數(shù)字化基礎(chǔ)。在大會(huì)發(fā)言環(huán)節(jié),同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司總經(jīng)理張宏偉以《人工智能大模型賦能文化數(shù)字化》為題發(fā)表演講。以下是發(fā)言全文(根據(jù)現(xiàn)場(chǎng)速記整理)。

  習(xí)近平總書(shū)記強(qiáng)調(diào)“人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力量,加快發(fā)展新一代人工智能是事關(guān)我國(guó)能否抓住新一輪科技革命和產(chǎn)業(yè)變革機(jī)遇的戰(zhàn)略問(wèn)題”,并指出“數(shù)據(jù)基礎(chǔ)制度建設(shè)事關(guān)國(guó)家發(fā)展和安全大局,要維護(hù)國(guó)家數(shù)據(jù)安全,保護(hù)個(gè)人信息和商業(yè)秘密,促進(jìn)數(shù)據(jù)高效流通使用、賦能實(shí)體經(jīng)濟(jì),統(tǒng)籌推進(jìn)數(shù)據(jù)產(chǎn)權(quán)、流通交易、收益分配、安全治理,加快構(gòu)建數(shù)據(jù)基礎(chǔ)制度體系”。

  今年政府工作報(bào)告首次明確提出,“深化大數(shù)據(jù)、人工智能等研發(fā)應(yīng)用,開(kāi)展人工智能+行動(dòng)”,“健全數(shù)據(jù)基礎(chǔ)制度,大力推動(dòng)數(shù)據(jù)開(kāi)發(fā)開(kāi)放和流通使用”。這是全球人工智能競(jìng)爭(zhēng)升級(jí)背景下,推動(dòng)中國(guó)向“人工智能時(shí)代”迭代升級(jí)的前瞻性、整體性政策設(shè)計(jì)。

  當(dāng)前國(guó)內(nèi)人工智能大模型產(chǎn)業(yè)呈現(xiàn)蓬勃發(fā)展態(tài)勢(shì),也面臨著高質(zhì)量中文知識(shí)文化語(yǔ)料短缺等問(wèn)題。貫徹落實(shí)國(guó)家文化數(shù)字化戰(zhàn)略和全國(guó)兩會(huì)精神,加快推進(jìn)中華文化數(shù)據(jù)庫(kù)建設(shè),釋放中華知識(shí)文化數(shù)據(jù)價(jià)值,賦能人工智能產(chǎn)業(yè)發(fā)展的時(shí)機(jī)已成熟。

  高質(zhì)量知識(shí)文化數(shù)據(jù)是人工智能的基石

  從去年的ChatGPT到今年初火爆的Sora,生成式人工智能大模型技術(shù)快速迭代、持續(xù)演進(jìn)。ChatGPT通過(guò)博覽群書(shū),擁有了持續(xù)的上下文對(duì)話和創(chuàng)作能力,作為一個(gè)變革性的知識(shí)生產(chǎn)與人機(jī)交互工具,達(dá)到了中級(jí)知識(shí)型腦力勞動(dòng)者的文字組織和表達(dá)能力。Sora更進(jìn)一步,可基于文本生成視頻,有望成為“世界模擬器”,自動(dòng)構(gòu)建仿真虛擬世界。

  當(dāng)然我們也不必過(guò)于焦慮,這一波人工智能發(fā)展從通用人工智能角度來(lái)講才剛剛起步。生成式人工智能大模型融合了連接主義和貝葉斯主義兩大學(xué)派的優(yōu)點(diǎn),實(shí)現(xiàn)了性能躍遷,但本質(zhì)上還是統(tǒng)計(jì)學(xué)習(xí),是從海量數(shù)據(jù)中做各種統(tǒng)計(jì)分析,而對(duì)內(nèi)在的邏輯、因果關(guān)系并沒(méi)有完全的理解。統(tǒng)計(jì)學(xué)習(xí)的“Garbage in Garage out”原則,決定了高質(zhì)量訓(xùn)練數(shù)據(jù)的重要性。

  人工智能是大模型、大算力、大數(shù)據(jù)三大要素綜合應(yīng)用的大系統(tǒng)工程?;A(chǔ)大模型的建設(shè)門(mén)檻極高,千億大模型的單次訓(xùn)練成本大概是上千萬(wàn),一千張卡一天耗電就是幾十萬(wàn),因此基礎(chǔ)大模型建設(shè)注定是大國(guó)的游戲、巨人的較量。馬斯克講,大模型競(jìng)爭(zhēng)的盡頭是算力和電力,但其實(shí)數(shù)據(jù)才是大模型競(jìng)爭(zhēng)的勝負(fù)手。

  大模型需要海量數(shù)據(jù)支撐,大模型建設(shè)從基礎(chǔ)模型預(yù)訓(xùn)練到上一層模型的增量訓(xùn)練再到微調(diào)、價(jià)值對(duì)齊,每一步都需要基礎(chǔ)知識(shí)、行業(yè)領(lǐng)域知識(shí)的數(shù)據(jù)支撐,可以說(shuō)數(shù)據(jù)是人工智能的基石,數(shù)據(jù)的數(shù)量、質(zhì)量與多樣性最終決定了人工智能水平高低。

  知網(wǎng)華知大模型建設(shè)和應(yīng)用的初步探索

  同方知網(wǎng)是業(yè)界領(lǐng)先的數(shù)字出版和知識(shí)服務(wù)商,擁有海量高質(zhì)量中文語(yǔ)料數(shù)據(jù)庫(kù)。在大模型建設(shè)方面,知網(wǎng)和華為建立了戰(zhàn)略合作伙伴關(guān)系,攜手成立人工智能聯(lián)合創(chuàng)新實(shí)驗(yàn)室,強(qiáng)強(qiáng)聯(lián)合、優(yōu)勢(shì)互補(bǔ)?;诤A扛哔|(zhì)量知識(shí)數(shù)據(jù)與華為聯(lián)創(chuàng)了全棧自主可控專業(yè)基礎(chǔ)大模型——華知大模型。華知大模型定位為L(zhǎng)0+專業(yè)基礎(chǔ)大模型,重點(diǎn)解決現(xiàn)有通用基礎(chǔ)大模型知識(shí)記憶錯(cuò)誤、信息時(shí)效性不足、邏輯推理錯(cuò)亂、缺乏專業(yè)知識(shí)等問(wèn)題,突出專業(yè)、安全、可信等特色,賦能知識(shí)密集型行業(yè)領(lǐng)域,并提供私有化定制服務(wù)。華知大模型官網(wǎng)(huazhi.cnki.net)近日已上線。

  首先,華知大模型的專業(yè)不僅僅體現(xiàn)在技術(shù)能力上,更體現(xiàn)在對(duì)知識(shí)的深度挖掘和應(yīng)用。華知大模型注入了知網(wǎng)全學(xué)科、海量高質(zhì)量的專業(yè)知識(shí)數(shù)據(jù),使得生成的內(nèi)容更為全面、更具深度,更能夠滿足各種專業(yè)領(lǐng)域需求。

  其次,安全是華知大模型的核心優(yōu)勢(shì)之一。我們擁有全棧自主可控的技術(shù)架構(gòu),確保從硬件到操作系統(tǒng),再到運(yùn)行的應(yīng)用軟件,以及數(shù)據(jù)處理和存儲(chǔ)全棧自主可控??梢愿鶕?jù)用戶的需求和戰(zhàn)略進(jìn)行靈活調(diào)整和優(yōu)化,運(yùn)行安全穩(wěn)定。我們注入的大模型語(yǔ)料符合出版規(guī)范標(biāo)準(zhǔn),質(zhì)量可靠、導(dǎo)向正確。

  第三,可信是我們對(duì)用戶的承諾。我們提供知識(shí)增強(qiáng)和可信溯源服務(wù),能夠最大程度地抑制和消除大模型的幻覺(jué),讓用戶可以放心使用。

  知網(wǎng)、華為基于盤(pán)古基礎(chǔ)大模型L0和知網(wǎng)海量高質(zhì)量知識(shí)數(shù)據(jù),形成華知專業(yè)基礎(chǔ)大模型L0+的研發(fā)和應(yīng)用受到了業(yè)界的廣泛關(guān)注。近三個(gè)月快速迭代演進(jìn)為2.0版,憑借其專業(yè)、安全、可信等突出優(yōu)勢(shì),入選國(guó)資委人工智能產(chǎn)業(yè)煥新相關(guān)行動(dòng)方案,并已在教育、科研、政務(wù)、醫(yī)療、企業(yè)等領(lǐng)域得到廣泛應(yīng)用落地。如應(yīng)用于政務(wù)領(lǐng)域,打造政府工作報(bào)告全生命周期的政知通智能輔政系統(tǒng);應(yīng)用于法治領(lǐng)域,打造服務(wù)法律咨詢業(yè)務(wù)的律境大模型;應(yīng)用于醫(yī)療領(lǐng)域,打造輔助診療大模型、藥物分子大模型;應(yīng)用于文化領(lǐng)域,打造博物館導(dǎo)覽助理數(shù)字人;應(yīng)用于企業(yè)管理,打造財(cái)務(wù)大模型、制度大模型等。

  華知大模型已全面升級(jí)知網(wǎng)現(xiàn)有產(chǎn)品服務(wù),從數(shù)字出版、加工標(biāo)準(zhǔn)到知識(shí)服務(wù),開(kāi)發(fā)了科普百科知識(shí)問(wèn)答、智能寫(xiě)作、智研助手、學(xué)術(shù)搜問(wèn)、AIGC檢測(cè)等原生產(chǎn)品和方案。

  應(yīng)用華知大模型后的知網(wǎng)數(shù)據(jù)治理平臺(tái),實(shí)現(xiàn)了全流程、多維度、細(xì)粒度的多文種數(shù)據(jù)標(biāo)注、自動(dòng)分類(lèi)、自動(dòng)文摘、智能審讀等,大幅提高數(shù)據(jù)加工處理的效率和準(zhǔn)確性,為大規(guī)模的數(shù)據(jù)治理、開(kāi)發(fā)文化大數(shù)據(jù)提供了可行的技術(shù)方案。

  大模型賦能文化大數(shù)據(jù)建設(shè)的一點(diǎn)思考

  去年開(kāi)始,千模大戰(zhàn),國(guó)內(nèi)企業(yè)緊跟國(guó)際前沿,相繼推出200多個(gè)大模型,展現(xiàn)蓬勃發(fā)展勢(shì)頭。但是我國(guó)大模型發(fā)展仍然面臨很多挑戰(zhàn),包括算力緊張、高質(zhì)量數(shù)據(jù)短缺、低水平重復(fù)建設(shè),以及文化安全威脅、國(guó)外開(kāi)源模型價(jià)值觀等問(wèn)題。

  中國(guó)有數(shù)千年文明,但豐富的文化沉淀絕大多數(shù)并未數(shù)字化,更談不上用來(lái)訓(xùn)練大模型。建設(shè)中華文化數(shù)據(jù)庫(kù)的時(shí)機(jī)已經(jīng)成熟,亟需加快建設(shè)步伐,高度重視文化數(shù)據(jù)的開(kāi)發(fā)和利用。

  知網(wǎng)在數(shù)據(jù)加工標(biāo)注、交易流通方面擁有豐富的經(jīng)驗(yàn),也具備大規(guī)模數(shù)據(jù)標(biāo)注工程服務(wù)能力和數(shù)據(jù)要素資產(chǎn)化綜合服務(wù)能力,涵蓋數(shù)據(jù)加工、治理、交易、流通等各環(huán)節(jié)。知網(wǎng)和上海數(shù)據(jù)交易所聯(lián)合建設(shè)了知識(shí)資源數(shù)據(jù)交易行業(yè)中心,知網(wǎng)愿意與在座的各家單位通力合作,開(kāi)展文化類(lèi)數(shù)據(jù)交易,讓數(shù)據(jù)“供得出、流得動(dòng)、用得好”,真正成為人工智能發(fā)展的催化劑。

  在文化領(lǐng)域的應(yīng)用上,同方知網(wǎng)基于華知L0+專業(yè)基礎(chǔ)大模型,與行業(yè)協(xié)會(huì)和文化機(jī)構(gòu)聯(lián)合打造文化行業(yè)大模型及場(chǎng)景垂直大模型,已有許多成功案例。同方知網(wǎng)與武漢大學(xué)文化遺產(chǎn)智能計(jì)算文科實(shí)驗(yàn)室和云岡石窟研究院聯(lián)合研制開(kāi)發(fā)的文化遺產(chǎn)大模型,通過(guò)構(gòu)建細(xì)粒度的文物、展覽、圖書(shū)、社教課程、考古簡(jiǎn)報(bào),以及海量研究文獻(xiàn)的高質(zhì)量語(yǔ)料庫(kù),利用華知大模型技術(shù),提供基于自然語(yǔ)言的智能問(wèn)答、檢索增強(qiáng)、文白對(duì)照、圖片增強(qiáng)、考古回溯、智慧研創(chuàng)、文物推薦等功能;此外還建設(shè)了長(zhǎng)江文化大數(shù)據(jù)服務(wù)中心、一系列紅色文化大數(shù)據(jù)平臺(tái)等多個(gè)項(xiàng)目。

  依托自身的大規(guī)模數(shù)據(jù)標(biāo)注工程服務(wù)能力和數(shù)據(jù)要素資產(chǎn)化綜合服務(wù)能力,同方知網(wǎng)將繼續(xù)通過(guò)AI+文化的數(shù)據(jù)治理和數(shù)據(jù)要素資產(chǎn)化綜合服務(wù),賦能高質(zhì)量文化數(shù)據(jù)要素價(jià)值釋放。期待與大家攜手共同推進(jìn)實(shí)施國(guó)家文化數(shù)字化戰(zhàn)略,知網(wǎng)將持續(xù)為文化數(shù)字化建設(shè)提供高質(zhì)量的支撐服務(wù)!

 ?。◤埡陚ハ得襁M(jìn)中央出版和傳媒委員會(huì)委員、同方知網(wǎng)總經(jīng)理、中國(guó)音像和數(shù)字出版協(xié)會(huì)常務(wù)理事、中國(guó)工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會(huì)大數(shù)據(jù)與人工智能專業(yè)委員會(huì)委員)

作者: 張宏偉
責(zé)任編輯: 葉煒
>