當前位置: 華文世界 > 科技

破譯甲骨文,AI準備好了嗎

2024-07-25科技
兩片來自北京大學珍藏甲骨文字的碎片經電腦輔助綴合的結果。綴合前蔔辭分別為1.丙戌日又□2.即□王蔔曰,叀王求,又乇。五月。透過綴合發現「日又」與「即」連讀。完整蔔辭為「丙戌日又即,王蔔曰:叀王求,又乇。五月」。有學者認為「又」通「有」,「即」通「食」,意為丙戌這天出現日偏食(日有食),商王占蔔認為會帶來災咎,於是進行「乇」的祭祀。
7月5日,上海,2024世界人工智能大會。安陽師範學院團隊宣布全球首個甲骨文多模態數據集正式開源。所謂多模態,是指包含一萬片甲骨拓片、摹本,以及甲骨文單字對應位置、對應字頭、對應隸定字以及辭例分組、釋讀順序等數據。研究人員可基於該數據集開發甲骨文檢測、辨識、摹本生成、字形匹配以及釋讀等方向的智能演算法。
近年來,安陽師範學院甲骨文資訊處理教育部重點實驗室利用電腦綴合甲骨碎片影像70余組,位列全國第一。其中一組綴合後形成了新的連貫文辭,如果釋讀無誤的話,這句話可能記錄了公元前1900多年的一次日偏食天象。這引起人們的極大關註。
最近二十年,甲骨文破譯逐漸進入瓶頸期。為此,在政府相關部門推動下,多所高校研究團隊致力於探索人工智能(AI)輔助研究甲骨文的技術。國內互聯網巨頭和科技公司紛紛入局,與學術界開展跨學科合作。人工智能的套用為甲骨文研究提供了新的思路。玄幻的殷商甲骨文與科幻的人工智能碰撞,這是屬於中華文化獨有的浪漫。
AI需要一個怎樣的甲骨文數據庫
投餵給人工智能的標準化、多模態數據集,起點是二十年前一位數學老師開發的輸入法。
1991年,安陽殷墟花園莊東地p坑內出土甲骨1583片,這是殷墟甲骨發掘史上第三次重大發現。彼時,從河南師範大學數學系畢業的劉永革分配到安陽師範專科學校(安陽師範學院前身)任教才第三年。在職業生涯的前十年裏,他與甲骨文研究並無交集。
上世紀90年代末,安陽師專安排青年教師進修考研。劉永革等十人來到西安,目標是考上西北工業大學電腦工程學院。當時個人微型電腦剛剛興起,進機房之前需要穿鞋套以防靜電。劉永革是數學專業出身,考試有四門課,其中三門以前沒學過,他便去書店買來專業書籍現學。有同學新買了一台照相機,招呼大家去秦始皇陵兵馬俑坑參觀遊覽,開玩笑說:「劉永革,別復習了,你陪我去,你肯定考不上嘛。」劉永革應該沒去看兵馬俑——他在2000年獲得電腦軟件與理論碩士學位,方向是數據庫套用。
21世紀初,安陽師院有一批從事甲骨文研究的中青年學者,包括李雪山、韓江蘇等,他們都曾在上世紀80年代「殷商文化研究班」受業於甲骨文專家胡厚宣。寫論文要參照甲骨文,甲骨文怎麽輸入電腦?雖然有一種甲骨文編碼輸入法,但是學習成本很高,就像五筆字型輸入法一樣,需要背誦一整套編碼。老師們找到已在電腦科學系任教的劉永革,希望他開發一種完全不同以往的新的輸入法。首先,用軟件描摹甲骨文字,將描出的圖形向量化,制成字型庫。再根據日本學者島邦男的甲骨文部首自然分類法設計檢索體系。用Visual C++編寫動態數據交換程式。使用時,呈現甲骨文常用部首的圖形界面,只需滑鼠點選檢索,再點選需要的文字即可,不用背碼。對於文字數量不多的甲骨文來說,這種輸入法是非常合適的。
涉及甲骨文研究,不僅要輸入單字,還要能輸入整句、要找出前人的釋讀成果進行對照,最好配上甲骨拓片或摹本的原圖。圈內學者常開玩笑說,其他學科閱讀資料可以用文本文件或者word文件,甲骨文研究只能看PDF檔——用它才能瀏覽清晰的拓片影像。歷史與文博學院的韓江蘇教授意識到,甲骨文研究需要一個字、圖、文資料一體化、便於檢索的數據庫。「甲骨文圖文資料庫」2004年成功申請國家社科基金,甲骨文輸入法的成功經驗在焉,劉永革很自然地加入了課題組。好好一個電腦專業老師,毅然跨界投身甲骨文的世界。他帶領電腦系的年輕人從頭學習甲骨文,為課題組增添新鮮血液。至結項驗收時,收錄數十種權威研究文獻的精華和7萬多張甲骨拓片。
郭青萍是安陽師院中文系教授,退休後自學甲骨文並從事甲骨文篆刻。一次,他請劉永革幫忙檢索幾個現代漢字對應的甲骨文字形。劉永革很快把結果給到了老先生。「我翻書尋找可能要花一個月,你這麽快就找到了?!這個電腦很好。我也要學電腦!」那年郭青萍89歲,家裏人不支持他。他拿出7000元偷偷交給劉永革,要他幫忙選購一台電腦。劉永革說:「老先生好學呀。我給他買了一台顯視器很大的那種,方便他看字。後來他用電腦又寫了三本甲骨文方面的書稿交付出版。」2008年,劉永革等申報的【基於甲骨文語料庫的電腦輔助考釋技術研究】獲批國家自然科學基金專案。甲骨文資料的數碼化極大地便利了研究者,也為即將到來的人工智能時代做好了鋪墊。
2016年3月,谷歌旗下DeepMind團隊開發的AlphaGo(初級圍棋)程式擊敗南韓九段棋手李世石,震驚世界。這也被認為是一個人工智能發展大周期的元年。一個月後,國家相關部委領導在河南安陽調研時說,要利用大數據、雲端運算等現代技術手段做好甲骨文的破譯工作。兩年後,安陽師院甲骨文資訊處理教育部重點實驗室獲批,劉永革出任實驗室主任。按照規定,教育部重點實驗室學術委員會主任應由院士擔任。「我們安陽是小地方,哪認識什麽院士喲。」
好在,他們「蹲」到了2015年新當選中國工程院院士的戴瓊海。劉永革就聘請他做學術委員會主任。戴瓊海是清華大學自動化系教授,長期致力於立體視覺和計算攝像理論、關鍵技術研究,現任中國人工智能學會理事長。
2019年是甲骨文發現120周年。安陽師院在甲骨文研究專家宋鎮豪指導下,釋出「殷契文淵」甲骨文數據平台。這是當今世界資料最齊全、最規範、最權威的甲骨文數據平台,對國內外研究者免費開放,至今已更新4期,包括甲骨著錄154種、甲骨論著34417種,收錄23余萬種影像。利用上億像素的照相機,透過高畫質拍攝、微距拍攝、三維建模、紅外線拍攝、多光譜拍攝,對每一片甲骨拍攝150余張照片。借助微痕增強技術,使研究者能清晰地看到甲骨上較淺的刻痕,更準確地分析筆畫和輪廓。部份有特殊含義的甲骨文是用丹砂「塗朱」的,對這部份文字的研究也是甲骨文研究中的一個分支。有些甲骨因年代久遠,紅色丹砂脫落殆盡,但透過光譜分析,仍然可以確定甲骨文中的塗朱部份。此外,根據機器學習的要求,添加影像數據標註。
回首過去,當初為甲骨文輸入法制作的向量字庫,已經「魔改」得面目全非。技術發展超越人的想象。
用電腦把破碎的甲骨拼起來
張展,2019年獲中國科學院大學電腦套用技術專業博士學位,2021年中國科學院沈陽自動化研究所博士後出站,研究方向為電腦視覺、模式辨識和數碼影像處理。在學校,張展和河南安陽籍郭安是室友。找工作時,郭安回安陽師院謀求教職,張展便順道來安陽看看機會。這是他第一次見到劉永革。老劉希望張展留下,但後者還沒有打定主意。一段時間後,劉永革接到張展的電話。他非常高興:「不用說相應的待遇。張展來我這裏,他成家前,我發動系裏的老師,要求每個人都給他介紹物件。我得讓他留在安陽。」
劉永革一眼看中張展,因為他的研究方向非常適合從事電腦輔助甲骨碎片綴合工作。而甲骨碎片綴合是短期內能夠實質性推動甲骨文釋讀破譯的手段。
安陽洹寶齋所藏甲骨碎片
當前的甲骨文釋讀工作確實處在一個瓶頸期,在甲骨學再繼續發展的道路上,遇到了文字釋讀滯後的障礙,給甲骨學商史研究的再深入造成了困難。中國文字博物館於2016年至2024年間開展了兩次甲骨文釋讀優秀成果征集評選。對破譯未釋讀甲骨文並經專家委員會鑒定透過的研究成果,單字獎勵10萬元。第一次,復旦大學蔣玉斌摘得一等獎,拿到了10萬元獎勵。第二次,復旦大學陳劍和吉林大學周忠兵同時獲得一等獎。8年,3個字,這就是今天破譯甲骨文的速度。
為何破譯如此之難?目前學界公認甲骨文有4500多個單字,其中已經破譯近1500字,剩下的3000多字都是較難釋讀的,譬如沒有對應的現代漢字,或是後世不再使用的地名、人名。甲骨文破譯是從已知推理未知。1991年安陽殷墟花園莊東地p坑的發掘是距今最後一次甲骨大發現。近三十年,新發現的甲骨增量太少,也使釋讀研究工作陷入巧婦難為無米之炊的境地。
為此,很多學者將目光投向存量甲骨挖潛,希望從中壓榨出有價值的新線索。現存甲骨多以碎片的形態存世。一是因為甲骨用於占蔔,經過鉆鑿、火燒,滄海桑田,繩編斷絕。二是早期甲骨收藏者在安陽小屯村收購甲骨,按片計價。村民便將挖出來的甲骨掰碎出售。所以後來就改為按甲骨上有多少字來計價收購。甲骨往往沿龜腹甲的天然紋裂而碎,其小者比人的指甲蓋大不了多少。如果將甲骨碎片綴合起來,就能得到新的連貫的句子,學者加以句讀,從而獲得全新的解讀。
俄羅斯國立愛米塔什博物館所藏甲骨綴合結果。原文為「壬辰王蔔,貞王其若…呼比?眔…其二人異史…」。釋文為「壬辰日王占蔔,貞問,王赦免亙方戰俘,令其配合比?眔…二人去做某事。」
然而,甲骨整理繁難且極費人工。故宮博物院是世界第三大甲骨收藏單位,所藏2萬多片殷墟甲骨,此前絕大多數從未整理出版。「故宮博物院藏古文字數碼平台」的階段性成果,也僅僅是公布了【故宮博物院藏殷墟甲骨文】「馬衡卷」「謝伯殳卷」中的300余件甲骨藏品高畫質影像及其拓本。人工綴合甲骨碎片需要記憶大量的甲骨文資訊,專業要求高、工作量大。一所高校能有幾個研究甲骨文的人才,他們寒窗苦讀,皓首窮經,才堪堪夠格參與這項工作。古人考釋文字如同射覆,意即如猜謎一般,靠直覺,沒有數學公式推導那樣的規律可循。有學者感慨,甲骨斷痕的邊緣並無一定的規律,而人對資訊的敏感是有偏好的,此處敏感別處未必敏感,因而遺漏甚多。
電腦沒有直覺,只有數碼和概率。與人不同,它可以找到沒有規律的邊緣資訊進行匹配。
張展向我們展示如何用電腦輔助綴合甲骨碎片。首先準備一片待綴合的甲骨碎片拓片影像,分辨率精度400dpi(經插值運算獲得600dpi),修理甲骨輪廓周圍的毛刺,提取段痕邊緣的一條曲線。將邊緣曲線旋轉正負20°,得到同一條曲線不同傾斜角度的集合。用邊緣曲線集合與選定的一批甲骨拓片的輪廓線相擬合。在邊緣曲線上分多個小段進行采樣,計算源甲骨碎片影像與目標甲骨碎片影像邊緣采樣點之間的距離和,作為不相似度處理。當不相似度值小於某一設定值的時候,意味著可能產生一組成功的綴合。
解釋起來有些費勁,但電腦只在瞬息間就能輸出綴合結果。
最初,張展跑完程式,得到一組綴合結果,發朋友圈,大家喜出望外。隨即,他們得知這組甲骨碎片已被前人綴合過,不過至少證明這個方法行得通。不久後,實驗室終於得到新的「獨家」綴合結果。不僅文辭能夠連上,貫穿兩片甲骨的刻痕也明顯能夠貫通。隨著專案深入,得到一組又一組綴合結果。一篇篇對綴合後連線起來的甲骨文句的考釋文章接踵發表。
這種綴合方法取得了小小的成功。但要再進一步,還有難關。目前的技術能夠讓選定的一片甲骨匹配另一片或者一批甲骨。如果要讓電腦在大批次甲骨影像中一次找出可綴合的一對或多對甲骨,需要新的演算法和更強大的算力。除了技術因素,還有一個問題困擾著研究者。全世界現存約16萬片甲骨,分散在15個國家、181家館藏機構。相比之下,經過整理可供研究且公開釋出的甲骨拓片資料就很少了。而機構與機構之間、國家與國家之間的交流合作、資源共享並非易事。
為此,安陽師院團隊今年正式啟動「全球甲骨數碼回歸計劃」,爭取國家、省、市三級政府部門和社會各界的支持,希望到國內外保存甲骨的館藏機構進行數據采集,讓散落各地的甲骨「回家」。這是一個宏偉而又浪漫的計劃。凡是用浪漫來形容的事,往往都是很難的,可能需要很多年才能完成。劉永革對張展說:「你看,我搞了一輩子數據庫。你一輩子做好甲骨碎片綴合這件事,也就成了。」與數千年的甲骨文相比,人生仿若滄海之一粟。很多事情的成功有漫長的路要走,其待後人乎!
作者:沈竹士
文:沈竹士圖:除標註外均安陽師範學院甲骨文資訊處理教育部重點實驗室提供編輯:付鑫鑫責任編輯:範兵
轉載此文請註明出處。