RM新时代APP官网

舊版網(wǎng)站入口

站內(nèi)搜索

王克非:構(gòu)建新型的歷時(shí)復(fù)合語(yǔ)料庫(kù)

王克非2016年09月19日10:54來(lái)源:中國(guó)社會(huì)科學(xué)報(bào)國(guó)家社科基金?

作者為國(guó)家社科基金重大項(xiàng)目“大規(guī)模英漢平行語(yǔ)料庫(kù)的建立與加工”首席專家、北京外國(guó)語(yǔ)大學(xué)教授

20世紀(jì)語(yǔ)言學(xué)研究,從索緒爾開(kāi)始,獲得極大的進(jìn)展。其中在方法和工具層面的進(jìn)步,以語(yǔ)料庫(kù)的研制與應(yīng)用最具標(biāo)志性意義。隨著現(xiàn)代計(jì)算機(jī)技術(shù)的發(fā)展,單語(yǔ)語(yǔ)料庫(kù)研制從20世紀(jì)中葉起步,至今已助力語(yǔ)言學(xué)研究取得不少新成果。雙語(yǔ)語(yǔ)料庫(kù)雖然遲至20世紀(jì)90年代上路,但勢(shì)頭很強(qiáng),帶動(dòng)了雙語(yǔ)對(duì)比、翻譯及雙語(yǔ)詞典研編等一系列研究。

語(yǔ)料庫(kù)研制存在的問(wèn)題

目前國(guó)際上雙語(yǔ)語(yǔ)料庫(kù)研制的主要問(wèn)題:第一,語(yǔ)料庫(kù)大多文本來(lái)源單一、標(biāo)注比較簡(jiǎn)單,且多為歐洲語(yǔ)言,其他雙語(yǔ)語(yǔ)料庫(kù)甚少,主要用于語(yǔ)言識(shí)別、文檔級(jí)對(duì)齊、術(shù)語(yǔ)提取等自然語(yǔ)言處理研究,而非從語(yǔ)言學(xué)和翻譯學(xué)角度研究語(yǔ)言與翻譯問(wèn)題。第二,少數(shù)雙語(yǔ)語(yǔ)料庫(kù)開(kāi)展了相應(yīng)的語(yǔ)言與翻譯研究,但雙語(yǔ)語(yǔ)料庫(kù)在質(zhì)和量上都有待提升。第三,語(yǔ)言是發(fā)展變化的,在外語(yǔ)和翻譯的作用下,語(yǔ)言之間的各種接觸可能導(dǎo)致語(yǔ)言發(fā)生另樣的變化,原生語(yǔ)言和翻譯語(yǔ)言也存在種種的相似和相異。國(guó)際上現(xiàn)有的雙語(yǔ)語(yǔ)料庫(kù)或是缺乏歷時(shí)語(yǔ)料,或是語(yǔ)料庫(kù)庫(kù)容有限,上述研究課題也就懸而未探。第四,現(xiàn)有的無(wú)論單語(yǔ)還是雙語(yǔ)語(yǔ)料庫(kù),很少做合成架構(gòu),即要么是單語(yǔ)或雙語(yǔ)的,要么是平行或類比的,少見(jiàn)組合,不利于語(yǔ)言和翻譯發(fā)展變化的考察和比較。

針對(duì)上述問(wèn)題,尤其是第四個(gè)問(wèn)題,有必要思考如何突破語(yǔ)料庫(kù)研制的局限性。構(gòu)建新型的歷時(shí)復(fù)合語(yǔ)料庫(kù),就是我們最新的嘗試。

歷時(shí)語(yǔ)料庫(kù)可提供各時(shí)期語(yǔ)言的相互比較,發(fā)現(xiàn)語(yǔ)言運(yùn)用的變化及其過(guò)程,為語(yǔ)言變化考察、翻譯研究以及翻譯語(yǔ)言與目標(biāo)語(yǔ)之間的互動(dòng),提供客觀的描寫(xiě)和可分析的數(shù)據(jù)。在中外歷史上都有不少翻譯與目標(biāo)語(yǔ)演化關(guān)系密切的案例。已往研究的語(yǔ)料來(lái)源不夠豐富,考察范圍有限,研究的深度和廣度大受制約,對(duì)原生漢語(yǔ)同翻譯漢語(yǔ)間的互動(dòng)關(guān)系也缺乏了解,而這些都有望通過(guò)歷時(shí)語(yǔ)料數(shù)據(jù)的獲得和分析取得新的突破。

由此可見(jiàn),研究語(yǔ)言及其變化不僅需要設(shè)計(jì)合理、規(guī)模較大的語(yǔ)料庫(kù),還需要平衡的歷時(shí)語(yǔ)言素材。國(guó)際上,應(yīng)對(duì)這一需求的歷時(shí)語(yǔ)料庫(kù)近些年開(kāi)始構(gòu)建。第一個(gè)歷時(shí)語(yǔ)料庫(kù)AVIATOR在1990年由伯明翰大學(xué)研制成功,另一個(gè)歷時(shí)語(yǔ)料庫(kù)ACRONYM于1994年建成。這兩個(gè)語(yǔ)料庫(kù)都使用連續(xù)出版的報(bào)刊為語(yǔ)料。代表性更強(qiáng)、跨度長(zhǎng)達(dá)300多年的平行英語(yǔ)語(yǔ)料庫(kù)(ARCHER)、4億字詞的美國(guó)英語(yǔ)歷史語(yǔ)料庫(kù)(COHA)也陸續(xù)建成。但是,單語(yǔ)的歷時(shí)語(yǔ)料庫(kù)還不能解決雙語(yǔ)的和翻譯的問(wèn)題。例如,現(xiàn)代漢語(yǔ)(包括翻譯的漢語(yǔ))的發(fā)展變化,單從歷時(shí)語(yǔ)料庫(kù)還不能很好地考察,應(yīng)加入更多的比較成分,如英語(yǔ)源語(yǔ)的因素、漢語(yǔ)譯文的變化和漢語(yǔ)原文的變化,三者之間形成全方位的比較研究,才有可能更充分地描寫(xiě)和分析。因此,不僅要構(gòu)建歷時(shí)的語(yǔ)料庫(kù),還應(yīng)設(shè)計(jì)復(fù)合的歷時(shí)語(yǔ)料庫(kù)。

歷時(shí)—復(fù)合:語(yǔ)料庫(kù)研制的一大突破

新型歷時(shí)復(fù)合語(yǔ)料庫(kù)的構(gòu)建是語(yǔ)料庫(kù)研制的一項(xiàng)重要突破,國(guó)際上在這方面剛剛起步。德國(guó)學(xué)者尤莉安娜·豪斯項(xiàng)目組近年構(gòu)建了一個(gè)小型歷時(shí)復(fù)合型語(yǔ)料庫(kù),共550篇文本、80萬(wàn)詞。但因語(yǔ)料庫(kù)容量小,語(yǔ)料不夠平衡,時(shí)間節(jié)點(diǎn)不清,目前僅開(kāi)展了初步的德英/英德翻譯研究和語(yǔ)言接觸研究。大規(guī)模英漢平行語(yǔ)料庫(kù)——英漢雙語(yǔ)的歷時(shí)復(fù)合語(yǔ)料庫(kù),可以有效地解決上述語(yǔ)料庫(kù)簡(jiǎn)單、語(yǔ)料庫(kù)質(zhì)量以及語(yǔ)料庫(kù)的歷時(shí)考察和復(fù)合對(duì)比研究等問(wèn)題,為翻譯與目標(biāo)語(yǔ)之間的互動(dòng)建立比較完整的描寫(xiě)和分析框架,使多層面、系統(tǒng)性的翻譯和語(yǔ)言變化歷時(shí)研究成為可能。

歷時(shí)語(yǔ)料不是隨意將各時(shí)期語(yǔ)料收集即可,需要平衡和分期。就漢語(yǔ)來(lái)說(shuō),語(yǔ)料的歷時(shí)平衡要通盤(pán)考慮現(xiàn)代漢語(yǔ)發(fā)展的實(shí)際情況,分期采樣,以便所建語(yǔ)料庫(kù)能反映出現(xiàn)代漢語(yǔ)的發(fā)展軌跡,并在英漢平行語(yǔ)料庫(kù)的基礎(chǔ)上探究英漢語(yǔ)言接觸及英語(yǔ)通過(guò)翻譯對(duì)漢語(yǔ)發(fā)展產(chǎn)生的影響。在語(yǔ)料、庫(kù)容、架構(gòu)、歷時(shí)、復(fù)合等方面必須突出自己的建庫(kù)特點(diǎn),突破國(guó)際上一般雙語(yǔ)語(yǔ)料庫(kù)的語(yǔ)料選取和語(yǔ)庫(kù)架構(gòu)等方面的局限,還要避免英國(guó)國(guó)家語(yǔ)料庫(kù)(BNC)由于歷時(shí)連續(xù)采樣而造成的各階段差異模糊的缺陷。

我們的設(shè)計(jì)思路是,在庫(kù)容上達(dá)到1億字詞,含百萬(wàn)字詞的口譯語(yǔ)料,并進(jìn)行深度加工標(biāo)注。除了語(yǔ)料平衡和庫(kù)容巨大這兩點(diǎn)外,歷時(shí)復(fù)合是創(chuàng)新亮點(diǎn),復(fù)合即平行語(yǔ)料、類比語(yǔ)料、參照語(yǔ)料三結(jié)合,而非單一的平行語(yǔ)料。我們從漢語(yǔ)和翻譯發(fā)展的動(dòng)態(tài)研究出發(fā)架構(gòu)歷時(shí)和復(fù)合的語(yǔ)料庫(kù):將20世紀(jì)100年間的漢語(yǔ)語(yǔ)料分成三個(gè)階段,約30年為一個(gè)階段,重點(diǎn)采集各階段某10年的語(yǔ)料,各階段收集:(1)英漢平行文學(xué)語(yǔ)料400萬(wàn)字詞。(2)漢語(yǔ)原生文學(xué)語(yǔ)料200萬(wàn)字詞。(3)再輔以19世紀(jì)未受現(xiàn)代翻譯影響的原生態(tài)漢語(yǔ)文學(xué)語(yǔ)料200萬(wàn)字詞,以及不諳外語(yǔ)的單語(yǔ)作家語(yǔ)料100萬(wàn)字詞,合計(jì)近2000多萬(wàn)字詞。

歷時(shí)復(fù)合語(yǔ)料庫(kù)的構(gòu)建除了注重時(shí)間段的劃分,還需在語(yǔ)料取樣上考慮雙語(yǔ)文本和翻譯研究的特定,即不同于一般的單、雙語(yǔ)語(yǔ)料庫(kù),并需要考慮漢語(yǔ)早期白話文語(yǔ)料(包括翻譯文本)有限,本研究在語(yǔ)料取樣時(shí)做了適當(dāng)變通,擴(kuò)大了采樣數(shù)量。英漢歷時(shí)翻譯語(yǔ)料庫(kù)樣本結(jié)構(gòu)參照Brown語(yǔ)料庫(kù),樣本大小參照挪威語(yǔ)/英語(yǔ)平行語(yǔ)料庫(kù)(The English-Norwegian Parallel Corpus,ENPC),大多數(shù)樣本為15000英語(yǔ)詞和對(duì)應(yīng)的25000漢字,漢語(yǔ)譯文取樣最多不超過(guò)30000字,一般從正文起始部分開(kāi)始連續(xù)選取。

構(gòu)建新型語(yǔ)料庫(kù)時(shí),還需要相應(yīng)的語(yǔ)料庫(kù)技術(shù)支撐,需要綜合型的便捷檢索平臺(tái)。例如充分調(diào)用篇頭(Header)標(biāo)注中的文本屬性信息,讓這些元信息作為檢索條件出現(xiàn)在檢索平臺(tái)界面上,提升復(fù)合檢索水平;像類別、風(fēng)格、體裁、作者、時(shí)間、出版社、時(shí)代等都可以用作檢索條件,保證語(yǔ)料檢索定向準(zhǔn)確、針對(duì)性強(qiáng)。目前,以xml格式存儲(chǔ)的語(yǔ)料可以在專門(mén)設(shè)計(jì)的平臺(tái)上使用。

歷時(shí)復(fù)合語(yǔ)料庫(kù)的應(yīng)用

語(yǔ)言發(fā)展變化的因素有些屬于語(yǔ)言自身運(yùn)動(dòng),有些是語(yǔ)言間的相互接觸影響所致,特別是翻譯在兩種語(yǔ)言間所起的作用,如近代以來(lái)的翻譯就對(duì)現(xiàn)代漢語(yǔ)白話文的發(fā)展起了重要推動(dòng)作用。同時(shí),漢語(yǔ)規(guī)范始終在隱性地規(guī)約翻譯語(yǔ)言變化的范圍。語(yǔ)言的發(fā)展變化會(huì)在詞素、詞語(yǔ)、搭配、短語(yǔ)、句式、句長(zhǎng)、語(yǔ)篇等層面上反映出來(lái)。借助于歷時(shí)復(fù)合語(yǔ)料庫(kù)這個(gè)平臺(tái),就可以充分比較和分析這些語(yǔ)言層面的歷時(shí)變化過(guò)程,并建立翻譯語(yǔ)言與現(xiàn)代漢語(yǔ)白話文間相互影響的動(dòng)態(tài)模式;還可以通過(guò)和漢語(yǔ)原創(chuàng)參照庫(kù)對(duì)比,分析發(fā)現(xiàn)漢語(yǔ)歷時(shí)變化與翻譯之間的關(guān)系。研究?jī)?nèi)容包括宏觀和微觀兩大方面。宏觀語(yǔ)言特征:重視使用語(yǔ)料庫(kù)驅(qū)動(dòng)研究方法,側(cè)重考察句長(zhǎng)、句段長(zhǎng)、POS頻率、類符型符比,以及某些特定語(yǔ)言項(xiàng)目的歷時(shí)分布特征。微觀語(yǔ)言特征:語(yǔ)料庫(kù)驅(qū)動(dòng)研究與基于語(yǔ)料庫(kù)的研究二者并用。前者通過(guò)WordSmith或AntConc的關(guān)鍵詞對(duì)比分析(keyness)詞匯和詞叢使用上的歷時(shí)差異,發(fā)現(xiàn)有價(jià)值的語(yǔ)言點(diǎn),繼之歸類、分析;后者重視現(xiàn)有研究成果的有效運(yùn)用,基于現(xiàn)有的研究提出理論假設(shè),找到細(xì)化了的語(yǔ)言項(xiàng)目,或者通過(guò)細(xì)讀翻譯文本,觀察可分析的語(yǔ)言使用特征,在此基礎(chǔ)上基于歷時(shí)語(yǔ)料進(jìn)行描述、分析和解釋。總之,歷時(shí)復(fù)合語(yǔ)料庫(kù)的應(yīng)用研究前景極為廣闊。

(責(zé)編:李葉、程宏毅)
RM新时代APP官网