中國共產(chǎn)黨新聞網(wǎng)>>成果選介>>年度項(xiàng)目成果>>語言學(xué)

中日對(duì)譯語料庫的研制與應(yīng)用研究

2011年05月15日16:51

　　北京外國語大學(xué)北京日本學(xué)研究中心徐一平教授主持的國家社會(huì)科學(xué)基金項(xiàng)目《中日對(duì)譯語料庫的研制與應(yīng)用研究》，于1999年立項(xiàng)，2003年7月結(jié)項(xiàng)，其最終成果為《中日對(duì)譯語料庫》（CDROM）和《中日對(duì)譯語料庫的研制與應(yīng)用研究論文集》。課題組主要成員有：曹大峰、施建軍、戴寶玉、李強(qiáng)、潘壽君、楊詘人。現(xiàn)將該成果的基本內(nèi)容及其研究、應(yīng)用情況介紹如下：

　　隨著信息時(shí)代的到來，大規(guī)模真實(shí)文本的處理給自然語言處理研究提出了緊迫的要求。同時(shí)，語言學(xué)界也發(fā)現(xiàn)，單純依靠語言學(xué)家的內(nèi)省和造句對(duì)語言所作的定性研究越來越難以全面、系統(tǒng)地描寫語言的真實(shí)全貌。因此，基于語料庫的經(jīng)驗(yàn)主義研究方法也就越來越受到語言學(xué)界和自然語言處理學(xué)界的青睞。在計(jì)算機(jī)不斷普及和自然語言處理研究不斷深入的過程中，基于單語語言的語料庫建設(shè)如雨后春筍，迅速發(fā)展。但是，作為基于中日兩種語言的大型雙語平行語料庫，目前在世界上還沒有得到開發(fā)和建立。因此可以說這一項(xiàng)目的完成，具有世界首創(chuàng)和填補(bǔ)空白的重要意義。

　　一、內(nèi)容豐富、加工到位、檢索功能齊全的中日對(duì)譯語料庫

　　本項(xiàng)目完成的《中日對(duì)譯語料庫》（CDROM），共收入中日雙語各種文本語料2013萬余字。在語料的收集上，考慮到語言研究和自然語言處理研究應(yīng)用的實(shí)際需要，在注重規(guī)模和原文、譯文質(zhì)量的同時(shí)，還充分考慮到各種體裁、年代語料的平衡，經(jīng)過對(duì)原文文本和譯文文本的調(diào)查和專家篩選，最終收入了中日文各類文章原文文本和譯文文本共80余篇。其中不但收錄了中日對(duì)譯文章中最常見的小說文本，還包括了如詩歌、散文、傳記、政論、法律法規(guī)、政府工作報(bào)告等各種體裁的語料文本，其跨越的時(shí)代也涉及到了近現(xiàn)代的各個(gè)時(shí)期，從而充分保證了語料的實(shí)用效果。在語料的錄入方面，經(jīng)過了多次反復(fù)的校對(duì)，使錯(cuò)誤率控制在了萬分之五以下，充分保證了所收語料的可信度。

　　為了適應(yīng)自然語言研究中知識(shí)提取的需要，對(duì)中日對(duì)譯語料庫中所收語料進(jìn)行了原文譯文對(duì)齊、詞性標(biāo)注、句法標(biāo)注等三個(gè)方面的深加工處理。

　　首先，原文譯文對(duì)齊是雙語平行語料庫的基本條件。但是，由于中日雙語語料自動(dòng)對(duì)齊的計(jì)算機(jī)工具尚未問世，利用計(jì)算機(jī)對(duì)語料進(jìn)行機(jī)器自動(dòng)對(duì)齊加工，目前還不現(xiàn)實(shí)。因此，課題組成員利用人工方法對(duì)全部語料進(jìn)行了對(duì)齊加工，制定了詳細(xì)的對(duì)齊原則，最終實(shí)現(xiàn)了本語料庫的雙語語料在段落層面上的100%對(duì)齊。在確保語料對(duì)齊加工質(zhì)量的同時(shí)，為今后實(shí)現(xiàn)中日雙語語料計(jì)算機(jī)自動(dòng)對(duì)齊和進(jìn)一步細(xì)化至句對(duì)齊，摸索出了一套成功的經(jīng)驗(yàn)。

　　其次，利用中日兩國自然語言處理研究中已經(jīng)開發(fā)出來的先進(jìn)的分詞、詞性標(biāo)注技術(shù)和句法分析系統(tǒng)，對(duì)整個(gè)語料庫的中日語料文本分別進(jìn)行了整體的分詞、詞性標(biāo)注和嘗試性的句法標(biāo)注。目前，由于自然語言處理技術(shù)的日益進(jìn)步，中日兩國單語語言的基于統(tǒng)計(jì)模型的分詞技術(shù)和詞性標(biāo)注技術(shù)均已日臻成熟。在中文方面，如北京大學(xué)計(jì)算語言學(xué)所開發(fā)的漢語分詞標(biāo)注系統(tǒng)SLEX；在日文方面，如日本奈良尖端科學(xué)技術(shù)大學(xué)院大學(xué)建立的日語分詞標(biāo)注系統(tǒng)CHASEN等，其計(jì)算機(jī)自動(dòng)加工分詞和詞性標(biāo)注的準(zhǔn)確率均可以達(dá)到95%以上。在利用這些先進(jìn)技術(shù)對(duì)本項(xiàng)目研制的中日對(duì)譯語料庫的語料進(jìn)行分詞和詞性標(biāo)注加工時(shí)，考慮到這些系統(tǒng)的統(tǒng)計(jì)模型都是基于純母語語料建立的這一特點(diǎn)，針對(duì)“對(duì)譯語料庫”的語料特殊性，特別是譯文語料中所存在的一些原文留下的烙印，如人名、地名等專有名詞，是基于母語語料的現(xiàn)有系統(tǒng)處理不了的問題，課題組在開發(fā)研制過程中，分別在這些系統(tǒng)中建立了對(duì)譯語言的中日文人名、地名等的專有名詞詞典。同時(shí)，采取了機(jī)器自動(dòng)分詞、標(biāo)注和人工校對(duì)相結(jié)合的方法，使中日雙語語料的分詞和詞性標(biāo)注的準(zhǔn)確率均達(dá)到了98%以上。另外，對(duì)10%的雙語語料進(jìn)行了嘗試性的句法標(biāo)注，其標(biāo)注準(zhǔn)確率，中文在60%—75%，日文在70%—80%之間。由于本項(xiàng)目的深加工處理，是在中日雙語語料中進(jìn)行的，其中所遇到的問題和解決的辦法是現(xiàn)有基于母語語料的系統(tǒng)中所不曾遇到過的，特別是加工完以后的語料再反饋給單語語料加工系統(tǒng)作為習(xí)題庫進(jìn)行學(xué)習(xí)，對(duì)進(jìn)一步提高單語語料加工系統(tǒng)的準(zhǔn)確率起到了積極的作用。

　　一個(gè)語料庫建成以后，是否能得到充分的應(yīng)用，其關(guān)鍵就在于該語料庫是否具備能夠滿足使用者要求的檢索功能。針對(duì)這一問題，課題組成員集思廣益，并與日本日立公司中央研究所通力合作，開發(fā)出了一套適合于中日對(duì)譯雙語平行語料庫特點(diǎn)，并能夠滿足中日語言研究者需要的檢索工具。

　　為了適應(yīng)中日雙語語料的特點(diǎn)，在檢索工具的功能上，要能夠做到對(duì)中日文語料進(jìn)行雙向檢索，并能夠提取與檢索結(jié)果相對(duì)應(yīng)的譯文語料，同時(shí)在計(jì)算機(jī)的同一個(gè)平臺(tái)上實(shí)現(xiàn)中日文的同屏顯示。課題組充分考慮到windows平臺(tái)的多語言技術(shù)特點(diǎn)，將本語料庫的主要開發(fā)平臺(tái)選定為windows操作系統(tǒng)。同時(shí)，為了使語料庫具有廣泛的通用性和較強(qiáng)的兼容性，中文語料采用了GB2312內(nèi)碼存儲(chǔ)，日文語料采用了SHIFTJIS內(nèi)碼存儲(chǔ)。這樣既可以適應(yīng)各種版本的windows平臺(tái)，并且經(jīng)過簡(jiǎn)單轉(zhuǎn)換以后又可以在其他平臺(tái)（如UNIX、linux等）上使用，充分提高了語料庫的應(yīng)用價(jià)值和學(xué)術(shù)價(jià)值，并為最終實(shí)現(xiàn)中日文同屏顯示和多功能檢索奠定了基礎(chǔ)。

　　本語料庫提供的檢索工具主要是在windows2000和ie6.0上，利用數(shù)據(jù)庫技術(shù)開發(fā)研制的。在顯示檢索結(jié)果時(shí)針對(duì)不同文種使用不同字體，有效地解決了中日文同屏顯示的問題。而且，由于分別采用了中日兩國的國家工業(yè)標(biāo)準(zhǔn)代碼存儲(chǔ)語料，使得在不同語種檢索中出現(xiàn)的內(nèi)碼沖突問題也得到了很好的解決，同時(shí)為語料庫數(shù)據(jù)的二次開發(fā)利用也創(chuàng)造了有利的條件。針對(duì)語料庫主要用于語言研究的特點(diǎn)，本語料庫提供的檢索工具，除具備一般語料庫所要求的簡(jiǎn)單的字符串檢索功能以外，還具備了句型檢索、特定組合形態(tài)詞語檢索、使用頻率檢索、正則表達(dá)式檢索等適應(yīng)各種語言研究復(fù)雜要求的檢索功能。其檢索速度也完全達(dá)到了實(shí)用的水平。

　　二、邊研制、邊應(yīng)用，研究成果始終在應(yīng)用中驗(yàn)證并提高

　　正如課題組在立項(xiàng)報(bào)告中闡明的那樣，此次開發(fā)研制的《中日對(duì)譯語料庫（CDROM）》，其最終目的是為中日兩國語言研究服務(wù)。因此，對(duì)本語料庫的應(yīng)用性提出了很高的要求。為了使完成以后的中日對(duì)譯語料庫能夠滿足中日兩國語言研究者的應(yīng)用要求，在語料庫基本具備一定規(guī)模和相應(yīng)的檢索功能以后，課題組成員以及其他一些相關(guān)研究人員就開始利用本語料庫進(jìn)行各種語言研究的嘗試。并分別于2001年9月和2002年9月舉行了兩次大型的國際學(xué)術(shù)研討會(huì)。

　　在2001年9月舉行的題為《中日對(duì)譯語料庫的研制與應(yīng)用研究》的國際學(xué)術(shù)研討會(huì)上，來自中日兩國的研究學(xué)者交流和研討了中日對(duì)譯語料庫在漢語語言學(xué)研究、日語語言學(xué)研究、漢日對(duì)比語言學(xué)研究、自然語言處理研究等領(lǐng)域中的應(yīng)用問題，這些研究廣泛涉及到了句法、詞匯、翻譯、詞典、歷時(shí)語言學(xué)等諸多方面，為課題組進(jìn)一步完善中日對(duì)譯語料庫的研制提供了許多寶貴的數(shù)據(jù)。

　　在2002年9月舉行的題為《語料庫應(yīng)用研究的深化與拓展》的國際學(xué)術(shù)研討會(huì)上，來自中日韓三國的研究學(xué)者，圍繞“語料庫在語言學(xué)研究中的作用和局限性”、“語言學(xué)、信息處理研究所需要的語料庫”、“中日對(duì)譯語料庫的構(gòu)建和現(xiàn)狀”、“語料庫信息的自動(dòng)抽取及其在語言研究中的應(yīng)用”、“口語語料庫的建設(shè)與應(yīng)用”等課題，進(jìn)行了廣泛、深入的探討。

　　為了反映這些應(yīng)用研究成果，課題組將開發(fā)過程中發(fā)表的階段性研究成果的論文以及利用中日對(duì)譯語料庫中期成果進(jìn)行的應(yīng)用性語言研究成果的論文匯集成冊(cè)，出版了《中日對(duì)譯語料庫的研制與應(yīng)用研究論文集》。其中，利用中日對(duì)譯語料庫對(duì)中文的語氣助詞“吧”和日語助動(dòng)詞“だろう”的對(duì)比研究、對(duì)中文的語氣助詞“呢”的研究以及對(duì)中日文完成時(shí)的對(duì)比研究等，都得出了未使用對(duì)譯語料庫進(jìn)行研究所沒有得到的新的結(jié)論，進(jìn)一步推動(dòng)了中日兩國語言研究的深入發(fā)展，充分顯示了中日對(duì)譯語料庫在兩國語言研究中所能發(fā)揮的重要作用。

　　當(dāng)然，語料庫的應(yīng)用也不僅僅限于單純的語言研究。如本語料庫還在清華大學(xué)的日文OCR開發(fā)項(xiàng)目，以及日本大學(xué)《日中古典文學(xué)今譯數(shù)據(jù)庫》項(xiàng)目等中日兩國的各類開發(fā)項(xiàng)目中得到了實(shí)際的應(yīng)用，并收到了良好的社會(huì)效益。

　　在自然語言處理領(lǐng)域，語料庫是構(gòu)建語言數(shù)學(xué)模型的基礎(chǔ)。許多成功的機(jī)器翻譯系統(tǒng)的核心模型也都是在語料庫的基礎(chǔ)上建立起來的。在當(dāng)今世界國際化進(jìn)程不斷加快的今天，同處亞洲的中日兩國的關(guān)系越來越密切，一個(gè)滿足于中日兩國人民交往的中日機(jī)器翻譯系統(tǒng)，越來越成為一種迫切的需要。而中日對(duì)譯語料庫必將成為這種翻譯系統(tǒng)的基礎(chǔ)。同時(shí)，進(jìn)一步加大各國人民之間的交流，從雙邊關(guān)系進(jìn)一步發(fā)展為多邊關(guān)系也是世界發(fā)展的一個(gè)必然趨勢(shì)。在已經(jīng)開發(fā)出的中日對(duì)譯雙語平行語料庫的基礎(chǔ)上，進(jìn)一步研制開發(fā)中日韓對(duì)譯以及中日英對(duì)譯等三語或多語平行語料庫，將是課題組的下一個(gè)努力目標(biāo)。

(責(zé)編：陳葉軍)

聯(lián)系我們 | 版權(quán)聲明

RM新时代APP官网

中日對(duì)譯語料庫的研制與應(yīng)用研究

主管主辦：全國哲學(xué)社會(huì)科學(xué)工作辦公室承辦：人民網(wǎng)

©1999-2019 全國哲學(xué)社會(huì)科學(xué)工作辦公室版權(quán)所有京ICP備12051030號(hào)

RM新时代APP官网

中日對(duì)譯語料庫的研制與應(yīng)用研究

主管主辦：全國哲學(xué)社會(huì)科學(xué)工作辦公室 承辦：人民網(wǎng)

©1999-2019 全國哲學(xué)社會(huì)科學(xué)工作辦公室 版權(quán)所有 京ICP備12051030號(hào)

主管主辦：全國哲學(xué)社會(huì)科學(xué)工作辦公室承辦：人民網(wǎng)

©1999-2019 全國哲學(xué)社會(huì)科學(xué)工作辦公室版權(quán)所有京ICP備12051030號(hào)