5 月 31 日,敦煌研究院宣布 " 數(shù)字藏經(jīng)洞 " 數(shù)據(jù)庫平臺(tái)正式上線,9900 多卷敦煌文書經(jīng)卷、60700 多幅圖像的數(shù)字化版本將與全球用戶零距離接觸,內(nèi)容涵蓋佛經(jīng)、律典、契約、絹畫等。
騰訊基于混元大模型和智能檢索技術(shù),助力網(wǎng)站實(shí)現(xiàn)更智能化的平臺(tái)能力,為用戶提供了古籍檢索、多語言翻譯、文白互譯、智能問答、AI 歸納等功能,讓豐富而深厚的敦煌文化內(nèi)容,被更好地展現(xiàn)和理解。
即日起,全球用戶可登錄官網(wǎng),踏上這場跨越時(shí)空的數(shù)字文化之旅。
敦煌研究院自 2017 年開始與騰訊達(dá)成戰(zhàn)略合作,推出了 " 敦煌數(shù)字供養(yǎng)人 "、" 敦煌詩巾 "、" 云游敦煌 " 小程序、QQ 音樂 " 古樂重聲 " 音樂會(huì)、《王者榮耀》" 遇見飛天 "" 遇見神鹿 "" 遇見胡旋 "" 遇見神鼓 " 系列游戲皮膚、敦煌動(dòng)畫劇等數(shù)字文創(chuàng)精品內(nèi)容。2022 年,雙方進(jìn)一步成立 " 騰訊互娛 × 數(shù)字敦煌文化遺產(chǎn)數(shù)字創(chuàng)意技術(shù)聯(lián)合實(shí)驗(yàn)室 ",推出全球首個(gè)基于區(qū)塊鏈的數(shù)字文化遺產(chǎn)開放共享平臺(tái) " 數(shù)字敦煌開放素材庫 ",基于游戲技術(shù)的超時(shí)空參與式博物館 " 數(shù)字藏經(jīng)洞 "、" 尋境敦煌 "VR 沉浸展、敦煌官莫高窟官方虛擬人 " 伽瑤 " 等亮點(diǎn)項(xiàng)目。此次,深度結(jié)合 AI 技術(shù)助力 " 數(shù)字藏經(jīng)洞 " 數(shù)據(jù)庫平臺(tái)上線,是雙方在探索前沿?cái)?shù)字技術(shù)創(chuàng)新應(yīng)用于文化遺產(chǎn)保護(hù)和傳承中的又一次具有開拓性的重要嘗試。
全流程 AI 智能體驗(yàn),數(shù)萬件珍貴經(jīng)卷和圖像數(shù)字新生
進(jìn)入 " 數(shù)字藏經(jīng)洞 " 數(shù)據(jù)庫平臺(tái),用戶可直觀閱讀到千年文明精華。平臺(tái)不僅收錄了世界上最早的印本書籍《金剛經(jīng)》、柳公權(quán)真跡拓本等傳世珍寶,還能一睹唐代的《放妻書》、中國最早的育兒教材《太公家教》、現(xiàn)存唐詩中的第一巨制《秦婦吟》等珍貴內(nèi)容。
以《金剛經(jīng)》為例,卷首的版畫描繪了釋迦牟尼在祇樹給孤獨(dú)園講法的場景,卷尾清晰標(biāo)注了 868 年的刊印日期。借助騰訊數(shù)字技術(shù)能力,用戶不僅能欣賞到這些古籍的細(xì)節(jié),還能與背后的故事進(jìn)行深度互動(dòng)。
AI 技術(shù)帶來了 " 解讀 " 這一文化和歷史的全新方式。點(diǎn)擊平臺(tái)的 "AI 歸納 " 功能,網(wǎng)站即刻提煉出《金剛經(jīng)》的核心思想:" 破除執(zhí)念,通達(dá)智慧 ",并通過智能推理將其與同期壁畫中的佛陀說法場景進(jìn)行關(guān)聯(lián)。
此外,面對繁體字、無標(biāo)點(diǎn)、豎排的原文,AI 可一鍵將內(nèi)容轉(zhuǎn)換為簡體字,并且自動(dòng)生成白話文翻譯,如:" 如是我聞,一時(shí)佛在舍衛(wèi)國祇樹給孤獨(dú)園 " 將被轉(zhuǎn)化為 " 我曾聽佛這樣說:那時(shí),佛陀住在舍衛(wèi)國的祇樹給孤獨(dú)園 "。
經(jīng)卷瀏覽模塊采用了 " 字 - 列 - 文 " 三維解析工具,幫助學(xué)者逐字查閱生僻字、恢復(fù)原卷結(jié)構(gòu)、跨版本對照,同時(shí)利用百億像素圖像識(shí)別與人工校驗(yàn)確保學(xué)術(shù)嚴(yán)謹(jǐn)性。
此外,平臺(tái)還支持中、英、法、日等多語言互譯,幫助敦煌文化在全球范圍內(nèi)無障礙傳播。
大模型 RAG 技術(shù)把經(jīng)卷 " 天書 " 變?yōu)榇蟀自?/strong>
從千年前沉睡的殘卷,到如今觸手可及的古籍解讀,這一切都離不開前沿 AI 技術(shù)對敦煌古籍的 " 量身定制 "。
作為 " 數(shù)字藏經(jīng)洞 " 數(shù)據(jù)庫平臺(tái)的技術(shù)支持方,騰訊通過智能檢索平臺(tái)(騰訊云 ES)實(shí)現(xiàn)了古籍?dāng)?shù)據(jù)的智能化處理和精準(zhǔn)檢索。
首先,平臺(tái)對古籍?dāng)?shù)據(jù)進(jìn)行了重新分詞,確保文本能夠被 AI 系統(tǒng)理解并有效處理。由于敦煌經(jīng)卷中存在大量繁體字、異形字、豎排、無標(biāo)點(diǎn)和生僻字,這些都為傳統(tǒng)文本處理帶來挑戰(zhàn)。
為此,技術(shù)團(tuán)隊(duì)引入了 " 古籍專屬詞典 ",并與敦煌專家團(tuán)合作優(yōu)化了復(fù)雜詞匯的分詞方式。例如,將 " 佛在舍衛(wèi)國祗樹給孤獨(dú)園 " 拆解為 " 佛 / 在 / 舍衛(wèi)國 / 祗樹 / 給孤獨(dú)園 ",使其成為 AI 可識(shí)別的最小數(shù)據(jù)單元。
接著,平臺(tái)無縫集成大模型,將其強(qiáng)大的推理能力與智能檢索平臺(tái)結(jié)合,形成雙模驅(qū)動(dòng)的 RAG(檢索增強(qiáng)生成)技術(shù)架構(gòu)。根據(jù)騰訊云大數(shù)據(jù)專家介紹,這是當(dāng)前 AI 技術(shù)中最成熟和前沿的技術(shù)范式——大模型協(xié)同智能檢索平臺(tái)構(gòu)建的 RAG 技術(shù)體系。
該體系應(yīng)用的大模型騰訊混元和 DeepSeek,是當(dāng)今最 " 聰明 " 的國產(chǎn) AI 大腦,全球權(quán)威評(píng)測平臺(tái) Chatbot Arena 顯示,這兩款模型在全球前八名中排名前列。
該技術(shù)體系的優(yōu)勢在于,首先通過騰訊云 ES 進(jìn)行精準(zhǔn)的混合檢索(文本 + 向量),同時(shí)結(jié)合其提供的全鏈路智能搜索開發(fā)服務(wù),可高效定位用戶查詢的相關(guān)文獻(xiàn)或上下文信息;然后,基于檢索結(jié)果,大模型利用其強(qiáng)大的生成能力,為用戶提供準(zhǔn)確的解答。這一雙模驅(qū)動(dòng)架構(gòu)不僅提升了檢索精準(zhǔn)度,還確保了智能生成的答案具有高度相關(guān)性和準(zhǔn)確性。
在處理復(fù)雜的古籍內(nèi)容時(shí),RAG 技術(shù)能夠?qū)v史文獻(xiàn)與現(xiàn)代技術(shù)相結(jié)合,實(shí)現(xiàn) " 從海量文獻(xiàn)中秒級(jí)鎖定真知 "。經(jīng)敦煌專家團(tuán)測試,該技術(shù)體系生成的答案準(zhǔn)確率高達(dá) 95%,顯著提高了信息的準(zhǔn)確性和用戶體驗(yàn)。
" 數(shù)字藏經(jīng)洞 " 數(shù)據(jù)庫平臺(tái)平臺(tái)發(fā)布,將集中展示 " 流失海外敦煌文物數(shù)字化復(fù)原項(xiàng)目 " 成果,持續(xù)擴(kuò)大與世界各地敦煌學(xué)收藏和研究機(jī)構(gòu)的合作,為全球?qū)W術(shù)界和社會(huì)公眾了解、獲取敦煌文化藝術(shù)資源貢獻(xiàn)一項(xiàng)統(tǒng)一完整、權(quán)威準(zhǔn)確、開放共享、便捷智能的國際性公共文化服務(wù)產(chǎn)品。
未來,騰訊將繼續(xù)探索與敦煌研究院的深入合作,聚焦數(shù)字技術(shù)在文化遺產(chǎn)傳承上的創(chuàng)新型應(yīng)用,為廣大學(xué)者和大眾打開一扇扇敦煌文化的新窗口。