張宏偉:人工智能大模型賦能文化數字化

發(fā)布時(shí)間: 2024-04-24
來(lái)源: 伏羲云微信公眾號
【字體:

  3月28日,國家文化大數據體系建設工作推進(jìn)會(huì )在湖北省武漢市舉行,會(huì )議的主題是學(xué)習貫徹習近平文化思想,推動(dòng)國家文化數字化戰略落地落實(shí),加快推進(jìn)國家文化大數據體系建設,為建設中華民族現代文明打牢數字化基礎。在大會(huì )發(fā)言環(huán)節,同方知網(wǎng)數字出版技術(shù)股份有限公司總經(jīng)理張宏偉以《人工智能大模型賦能文化數字化》為題發(fā)表演講。以下是發(fā)言全文(根據現場(chǎng)速記整理)。

  習近平總書(shū)記強調“人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅動(dòng)力量,加快發(fā)展新一代人工智能是事關(guān)我國能否抓住新一輪科技革命和產(chǎn)業(yè)變革機遇的戰略問(wèn)題”,并指出“數據基礎制度建設事關(guān)國家發(fā)展和安全大局,要維護國家數據安全,保護個(gè)人信息和商業(yè)秘密,促進(jìn)數據高效流通使用、賦能實(shí)體經(jīng)濟,統籌推進(jìn)數據產(chǎn)權、流通交易、收益分配、安全治理,加快構建數據基礎制度體系”。

  今年政府工作報告首次明確提出,“深化大數據、人工智能等研發(fā)應用,開(kāi)展人工智能+行動(dòng)”,“健全數據基礎制度,大力推動(dòng)數據開(kāi)發(fā)開(kāi)放和流通使用”。這是全球人工智能競爭升級背景下,推動(dòng)中國向“人工智能時(shí)代”迭代升級的前瞻性、整體性政策設計。

  當前國內人工智能大模型產(chǎn)業(yè)呈現蓬勃發(fā)展態(tài)勢,也面臨著(zhù)高質(zhì)量中文知識文化語(yǔ)料短缺等問(wèn)題。貫徹落實(shí)國家文化數字化戰略和全國兩會(huì )精神,加快推進(jìn)中華文化數據庫建設,釋放中華知識文化數據價(jià)值,賦能人工智能產(chǎn)業(yè)發(fā)展的時(shí)機已成熟。

  高質(zhì)量知識文化數據是人工智能的基石

  從去年的ChatGPT到今年初火爆的Sora,生成式人工智能大模型技術(shù)快速迭代、持續演進(jìn)。ChatGPT通過(guò)博覽群書(shū),擁有了持續的上下文對話(huà)和創(chuàng )作能力,作為一個(gè)變革性的知識生產(chǎn)與人機交互工具,達到了中級知識型腦力勞動(dòng)者的文字組織和表達能力。Sora更進(jìn)一步,可基于文本生成視頻,有望成為“世界模擬器”,自動(dòng)構建仿真虛擬世界。

  當然我們也不必過(guò)于焦慮,這一波人工智能發(fā)展從通用人工智能角度來(lái)講才剛剛起步。生成式人工智能大模型融合了連接主義和貝葉斯主義兩大學(xué)派的優(yōu)點(diǎn),實(shí)現了性能躍遷,但本質(zhì)上還是統計學(xué)習,是從海量數據中做各種統計分析,而對內在的邏輯、因果關(guān)系并沒(méi)有完全的理解。統計學(xué)習的“Garbage in Garage out”原則,決定了高質(zhì)量訓練數據的重要性。

  人工智能是大模型、大算力、大數據三大要素綜合應用的大系統工程?;A大模型的建設門(mén)檻極高,千億大模型的單次訓練成本大概是上千萬(wàn),一千張卡一天耗電就是幾十萬(wàn),因此基礎大模型建設注定是大國的游戲、巨人的較量。馬斯克講,大模型競爭的盡頭是算力和電力,但其實(shí)數據才是大模型競爭的勝負手。

  大模型需要海量數據支撐,大模型建設從基礎模型預訓練到上一層模型的增量訓練再到微調、價(jià)值對齊,每一步都需要基礎知識、行業(yè)領(lǐng)域知識的數據支撐,可以說(shuō)數據是人工智能的基石,數據的數量、質(zhì)量與多樣性最終決定了人工智能水平高低。

  知網(wǎng)華知大模型建設和應用的初步探索

  同方知網(wǎng)是業(yè)界領(lǐng)先的數字出版和知識服務(wù)商,擁有海量高質(zhì)量中文語(yǔ)料數據庫。在大模型建設方面,知網(wǎng)和華為建立了戰略合作伙伴關(guān)系,攜手成立人工智能聯(lián)合創(chuàng )新實(shí)驗室,強強聯(lián)合、優(yōu)勢互補?;诤A扛哔|(zhì)量知識數據與華為聯(lián)創(chuàng )了全棧自主可控專(zhuān)業(yè)基礎大模型——華知大模型。華知大模型定位為L(cháng)0+專(zhuān)業(yè)基礎大模型,重點(diǎn)解決現有通用基礎大模型知識記憶錯誤、信息時(shí)效性不足、邏輯推理錯亂、缺乏專(zhuān)業(yè)知識等問(wèn)題,突出專(zhuān)業(yè)、安全、可信等特色,賦能知識密集型行業(yè)領(lǐng)域,并提供私有化定制服務(wù)。華知大模型官網(wǎng)(huazhi.cnki.net)近日已上線(xiàn)。

  首先,華知大模型的專(zhuān)業(yè)不僅僅體現在技術(shù)能力上,更體現在對知識的深度挖掘和應用。華知大模型注入了知網(wǎng)全學(xué)科、海量高質(zhì)量的專(zhuān)業(yè)知識數據,使得生成的內容更為全面、更具深度,更能夠滿(mǎn)足各種專(zhuān)業(yè)領(lǐng)域需求。

  其次,安全是華知大模型的核心優(yōu)勢之一。我們擁有全棧自主可控的技術(shù)架構,確保從硬件到操作系統,再到運行的應用軟件,以及數據處理和存儲全棧自主可控??梢愿鶕脩?hù)的需求和戰略進(jìn)行靈活調整和優(yōu)化,運行安全穩定。我們注入的大模型語(yǔ)料符合出版規范標準,質(zhì)量可靠、導向正確。

  第三,可信是我們對用戶(hù)的承諾。我們提供知識增強和可信溯源服務(wù),能夠最大程度地抑制和消除大模型的幻覺(jué),讓用戶(hù)可以放心使用。

  知網(wǎng)、華為基于盤(pán)古基礎大模型L0和知網(wǎng)海量高質(zhì)量知識數據,形成華知專(zhuān)業(yè)基礎大模型L0+的研發(fā)和應用受到了業(yè)界的廣泛關(guān)注。近三個(gè)月快速迭代演進(jìn)為2.0版,憑借其專(zhuān)業(yè)、安全、可信等突出優(yōu)勢,入選國資委人工智能產(chǎn)業(yè)煥新相關(guān)行動(dòng)方案,并已在教育、科研、政務(wù)、醫療、企業(yè)等領(lǐng)域得到廣泛應用落地。如應用于政務(wù)領(lǐng)域,打造政府工作報告全生命周期的政知通智能輔政系統;應用于法治領(lǐng)域,打造服務(wù)法律咨詢(xún)業(yè)務(wù)的律境大模型;應用于醫療領(lǐng)域,打造輔助診療大模型、藥物分子大模型;應用于文化領(lǐng)域,打造博物館導覽助理數字人;應用于企業(yè)管理,打造財務(wù)大模型、制度大模型等。

  華知大模型已全面升級知網(wǎng)現有產(chǎn)品服務(wù),從數字出版、加工標準到知識服務(wù),開(kāi)發(fā)了科普百科知識問(wèn)答、智能寫(xiě)作、智研助手、學(xué)術(shù)搜問(wèn)、AIGC檢測等原生產(chǎn)品和方案。

  應用華知大模型后的知網(wǎng)數據治理平臺,實(shí)現了全流程、多維度、細粒度的多文種數據標注、自動(dòng)分類(lèi)、自動(dòng)文摘、智能審讀等,大幅提高數據加工處理的效率和準確性,為大規模的數據治理、開(kāi)發(fā)文化大數據提供了可行的技術(shù)方案。

  大模型賦能文化大數據建設的一點(diǎn)思考

  去年開(kāi)始,千模大戰,國內企業(yè)緊跟國際前沿,相繼推出200多個(gè)大模型,展現蓬勃發(fā)展勢頭。但是我國大模型發(fā)展仍然面臨很多挑戰,包括算力緊張、高質(zhì)量數據短缺、低水平重復建設,以及文化安全威脅、國外開(kāi)源模型價(jià)值觀(guān)等問(wèn)題。

  中國有數千年文明,但豐富的文化沉淀絕大多數并未數字化,更談不上用來(lái)訓練大模型。建設中華文化數據庫的時(shí)機已經(jīng)成熟,亟需加快建設步伐,高度重視文化數據的開(kāi)發(fā)和利用。

  知網(wǎng)在數據加工標注、交易流通方面擁有豐富的經(jīng)驗,也具備大規模數據標注工程服務(wù)能力和數據要素資產(chǎn)化綜合服務(wù)能力,涵蓋數據加工、治理、交易、流通等各環(huán)節。知網(wǎng)和上海數據交易所聯(lián)合建設了知識資源數據交易行業(yè)中心,知網(wǎng)愿意與在座的各家單位通力合作,開(kāi)展文化類(lèi)數據交易,讓數據“供得出、流得動(dòng)、用得好”,真正成為人工智能發(fā)展的催化劑。

  在文化領(lǐng)域的應用上,同方知網(wǎng)基于華知L0+專(zhuān)業(yè)基礎大模型,與行業(yè)協(xié)會(huì )和文化機構聯(lián)合打造文化行業(yè)大模型及場(chǎng)景垂直大模型,已有許多成功案例。同方知網(wǎng)與武漢大學(xué)文化遺產(chǎn)智能計算文科實(shí)驗室和云岡石窟研究院聯(lián)合研制開(kāi)發(fā)的文化遺產(chǎn)大模型,通過(guò)構建細粒度的文物、展覽、圖書(shū)、社教課程、考古簡(jiǎn)報,以及海量研究文獻的高質(zhì)量語(yǔ)料庫,利用華知大模型技術(shù),提供基于自然語(yǔ)言的智能問(wèn)答、檢索增強、文白對照、圖片增強、考古回溯、智慧研創(chuàng )、文物推薦等功能;此外還建設了長(cháng)江文化大數據服務(wù)中心、一系列紅色文化大數據平臺等多個(gè)項目。

  依托自身的大規模數據標注工程服務(wù)能力和數據要素資產(chǎn)化綜合服務(wù)能力,同方知網(wǎng)將繼續通過(guò)AI+文化的數據治理和數據要素資產(chǎn)化綜合服務(wù),賦能高質(zhì)量文化數據要素價(jià)值釋放。期待與大家攜手共同推進(jìn)實(shí)施國家文化數字化戰略,知網(wǎng)將持續為文化數字化建設提供高質(zhì)量的支撐服務(wù)!

 ?。◤埡陚ハ得襁M(jìn)中央出版和傳媒委員會(huì )委員、同方知網(wǎng)總經(jīng)理、中國音像和數字出版協(xié)會(huì )常務(wù)理事、中國工業(yè)與應用數學(xué)學(xué)會(huì )大數據與人工智能專(zhuān)業(yè)委員會(huì )委員)

作者: 張宏偉
責任編輯: 葉煒
>