我國語言資源保護工程一期收集原始語料文件數(shù)據(jù)一千多萬條——
最大規(guī)模語言資源庫是如何建成的
日前,在教育部、國家語委召開的中國語言資源保護工程建設推進會上,中國語言資源保護工程首席專家、浙江師范大學教授曹志耘表示,我國已完成語言資源保護工程一期目標,建成了世界上最大規(guī)模的語言資源庫和展示平臺。
“世界最大規(guī)?!笔侨绾谓ǔ傻模亢A康恼Z言資源庫數(shù)據(jù),又將與社會生活發(fā)生怎樣的聯(lián)系?
高度組織:中國語保工程的顯著特點
參與高校和科研機構(gòu)達350多家,投入專業(yè)技術(shù)人員4500多名,語言方言發(fā)音人6000余人——語保工程一期的背后,留下這樣一組數(shù)字。
這與國際上同類項目形成了鮮明對比,那些項目大多數(shù)由基金會、科研機構(gòu)甚至個人組織實施,力量零散,難成規(guī)模。
在教育部和國家語委的領導組織下,語保工程確立了實施方案、管理辦法和技術(shù)規(guī)范,編印出版《中國語言資源調(diào)查手冊·民族語言》《中國方言文化典藏調(diào)查手冊》等規(guī)范標準。項目實施過程中的培訓、指導、檢查、驗收等也都有專業(yè)團隊和技術(shù)人員把關。
北京語言大學的中國語言資源保護研究中心、中央民族大學的中國少數(shù)民族語言資源保護研究中心,是語保工程重要的依托平臺。
“中心以精湛的專業(yè)技術(shù)知識,為工程建設提供學術(shù)支撐,開展頂層設計,研制工程規(guī)劃與規(guī)范?!北本┱Z言大學校長、中國語言資源保護研究中心主任劉利說。
中央民族大學副校長宋敏介紹,中國少數(shù)民族語言資源保護研究中心成立了由校內(nèi)外專家組成的工作委員會,負責重大學術(shù)事務的審議決策,并探索形成了有利于聯(lián)合攻關的 “中心—項目負責人—課題負責人”三級項目管理體制。
“中國語保工程的顯著特點,就是國家工程的鮮明定位。黨的堅強領導和政府統(tǒng)一規(guī)劃組織,是語保工程得以順利推進的重要因素。”曹志耘說。
跋山涉水:對全國各語言方言開展科學系統(tǒng)的調(diào)查保護
看到經(jīng)過長途跋涉來到自己面前的中國傳媒大學人文學院教授李大勤及其團隊,米古麗·米熊驚呆了。
米熊家住西藏察隅縣西巴村,那里山高路遠、悶熱潮濕、環(huán)境封閉,傳統(tǒng)語言為義都語。身為語保工程核心專家組成員,李大勤正是為此而來。
在李大勤的指導下,米熊成為義都語發(fā)音人,攝錄設備記錄下她的發(fā)音和吟唱。米熊很快明白了這份工作的意義:義都珞巴人現(xiàn)今僅有少數(shù)五六十歲的人會講義都語,語保工程團隊的到來,將為義都語的傳承和保護提供有力支撐。
國際社會公認,語言多樣性是人類重要的遺產(chǎn),每一種語言都蘊藏著一個民族或群體的獨特文化智慧,任何一種語言的消亡都是整個人類的損失。
據(jù)統(tǒng)計,5年來,語保工程覆蓋全國1712個地點,調(diào)查123種語言和全部漢語方言,其中還包括若干種以前未有人調(diào)查過的語言和部分面臨消亡的語言方言。收集原始語料文件數(shù)據(jù)1000多萬條,其中音視頻數(shù)據(jù)各500多萬條,總物理容量達100TB。一大批瀕危漢語方言和少數(shù)民族語言得到科學系統(tǒng)的調(diào)查保護。
“語保工程對全國各語言方言開展了全面系統(tǒng)科學的搶救性調(diào)查記錄,獲得了海量的第一手原始語料。這批語料具有唯一性和不可迭代性,是無價之寶。”曹志耘說。
深度開發(fā):全面提升語言資源保護利用
進行深度開發(fā)應用,全面提升我國語言資源保護和利用的水平,是語保工程的主要目標之一。
2020年初,面對新冠肺炎疫情肆虐的嚴峻形勢,中國語言資源保護研究中心統(tǒng)籌協(xié)調(diào)并運用語保工程的已有資源、專家團隊和技術(shù)規(guī)范標準,參與研制“抗擊疫情湖北方言通”,該中心與清華大學項目組合作研制的“方言通”微信版累計訪問數(shù)逾3.2萬人次,錄音累計播放量逾39萬次,為抗擊疫情提供了有效的語言應急服務。
“在大力推廣國家通用語言文字的同時,要科學保護好漢語方言和少數(shù)民族語言資源,促進語言資源的開發(fā)利用。”在中國語言資源保護工程建設推進會上,教育部副部長、國家語委主任田學軍表示,要以更高站位、更寬視野、更大力度,推動工程二期建設高質(zhì)量發(fā)展。
宋敏表示,中央民族大學將根據(jù)語保工程一期成果,開發(fā)相應語言教材,幫助和促進少數(shù)民族群眾更加科學系統(tǒng)地學習國家通用語言文字,同時搭建民族語言資源智能收集平臺,實現(xiàn)各民族語言資源的常態(tài)化智能收集,加快語言文化博物館建設和文創(chuàng)產(chǎn)品開發(fā)。
記者了解到,二期工程將對此前調(diào)查收集的語言資源進行科學系統(tǒng)的整理加工和全面深度的開發(fā)應用,建成準確權(quán)威、開放共享的語言資源公共服務平臺,產(chǎn)出系列標志性成果,全面提升我國語言資源保護和利用水平。同時,還將對一些持續(xù)瀕危的語言方言開展調(diào)查保護,編寫出版語言資源集、瀕危語言志等。(本報記者 高毅哲)