RM新时代APP官网

舊版網(wǎng)站入口

站內(nèi)搜索

計(jì)算語(yǔ)言學(xué)方法研究

——《計(jì)算語(yǔ)言學(xué)方法研究》成果選介

2011年05月15日16:51

  教育部語(yǔ)言文字應(yīng)用研究所馮志偉教授主持完成的國(guó)家社會(huì)科學(xué)基金項(xiàng)目《計(jì)算語(yǔ)言學(xué)方法研究》(批準(zhǔn)號(hào)為03BYY019),最終成果為同名專著。課題組成員有:楊泉、胡鳳國(guó)、張和友。

  計(jì)算語(yǔ)言學(xué)(computational linguistics)是用計(jì)算機(jī)研究和處理自然語(yǔ)言的一門新興邊緣學(xué)科,涉及語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)、心理學(xué)等部門。在計(jì)算語(yǔ)言學(xué)的發(fā)展過(guò)程中,提出了很多方法,這些方法,在理論上有一定的深度,在實(shí)踐上有實(shí)用價(jià)值,值得引起我們語(yǔ)言學(xué)研究者的重視。但是,國(guó)內(nèi)計(jì)算語(yǔ)言學(xué)界對(duì)于這些方法的研究基本上是支離破碎的,缺乏系統(tǒng)的總結(jié),更缺乏理論上的分析。本課題在全面調(diào)查國(guó)內(nèi)外計(jì)算語(yǔ)言學(xué)各種方法的基礎(chǔ)上,對(duì)這些方法進(jìn)行了系統(tǒng)的描述,并在理論上進(jìn)行了深入的分析和概括,總結(jié)出規(guī)律性的具有方法論意義的認(rèn)識(shí)。其主要內(nèi)容分為七個(gè)部分。

  一、計(jì)算語(yǔ)言學(xué)的學(xué)科定位和主要方法

  這一部分首先從計(jì)算機(jī)處理自然語(yǔ)言的過(guò)程、計(jì)算語(yǔ)言學(xué)的范圍以及計(jì)算語(yǔ)言學(xué)的歷史三個(gè)角度來(lái)考察計(jì)算語(yǔ)言學(xué)的學(xué)科定位問(wèn)題。從計(jì)算機(jī)處理自然語(yǔ)言的過(guò)程來(lái)考察它的學(xué)科定位,是從縱的角度來(lái)討論;從計(jì)算語(yǔ)言學(xué)的范圍來(lái)考察它的學(xué)科定位,是從橫的角度來(lái)討論。通過(guò)這種縱橫交錯(cuò)的考察,我們對(duì)于計(jì)算語(yǔ)言學(xué)的學(xué)科定位就可以在共時(shí)的平面上得到比較清晰的認(rèn)識(shí)。然后,我們?cè)購(gòu)挠?jì)算語(yǔ)言學(xué)的歷史來(lái)考察,也就是從發(fā)展的角度來(lái)討論,這樣,我們對(duì)于計(jì)算語(yǔ)言學(xué)的學(xué)科定位就可以在歷時(shí)的平面上得到比較清晰的認(rèn)識(shí)。

  對(duì)于計(jì)算語(yǔ)言學(xué)方法的研究,可以從方法論的角度來(lái)論述,也可以從語(yǔ)音、詞匯、形態(tài)、句法、語(yǔ)義、語(yǔ)用研究中使用的方法來(lái)論述。

  從方法論的角度,計(jì)算語(yǔ)言學(xué)方法可以分為基于規(guī)則的方法(rule-based approach)和基于統(tǒng)計(jì)的方法(statistics-based approach)兩個(gè)方面;谝(guī)則的方法是理性主義的方法,基于統(tǒng)計(jì)的方法是經(jīng)驗(yàn)主義的方法。這兩種方法實(shí)際上并不是完全對(duì)立的,它們各有利弊,而且目前這兩種方法有合流的傾向,它們正在相互結(jié)合起來(lái),取長(zhǎng)補(bǔ)短,相得益彰。本項(xiàng)目如果把基于規(guī)則的方法和基于統(tǒng)計(jì)的方法分割開(kāi)來(lái)研究,很多問(wèn)題將會(huì)糾纏不清,不便于論述。因此,本項(xiàng)目不采取這樣的論述方式。

  本項(xiàng)目采取按照語(yǔ)言學(xué)學(xué)科分類的方式,從語(yǔ)音、詞匯、形態(tài)、句法、語(yǔ)義、語(yǔ)用研究中使用的計(jì)算語(yǔ)言學(xué)方法來(lái)加以論述。分別討論語(yǔ)音的自動(dòng)處理方法、詞匯的自動(dòng)處理方法、形態(tài)的自動(dòng)處理方法、句法的自動(dòng)分析方法、語(yǔ)義的自動(dòng)處理方法、語(yǔ)用的自動(dòng)處理方法。

  在論述時(shí),首先對(duì)于各個(gè)領(lǐng)域內(nèi)計(jì)算語(yǔ)言學(xué)方法的發(fā)展歷史進(jìn)行簡(jiǎn)要的回顧,然后,再對(duì)各種具體的方法進(jìn)行論述和分析。這樣,計(jì)算語(yǔ)言學(xué)方法的研究便有了一個(gè)可靠的歷史背景,我們對(duì)于各種方法的來(lái)龍去脈也就更加清楚了。

  二、語(yǔ)音的自動(dòng)處理方法

  文本-語(yǔ)音轉(zhuǎn)換(Text-to-Speech簡(jiǎn)稱TTS)的核心任務(wù)是以文本中詞的序列作為輸入,產(chǎn)生聲學(xué)波形作為輸出。自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,簡(jiǎn)稱ASR)的核心任務(wù)是以語(yǔ)音的聲學(xué)波形作為輸入,產(chǎn)生單詞串作為輸出。

  這一部分詳細(xì)討論了語(yǔ)音自動(dòng)處理的主要方法:貝葉斯公式(Bayes formala)、噪聲信道模型(Noisy Channel Model)、N元語(yǔ)法(N-gram Grammar)、隱馬爾可夫模型(Hidden Markov Model,簡(jiǎn)稱HMM)等。這些方法成為了計(jì)算語(yǔ)言學(xué)中各種統(tǒng)計(jì)方法的基礎(chǔ)。

  三、詞匯的自動(dòng)處理方法

  語(yǔ)言中的詞匯具有高度系統(tǒng)化的結(jié)構(gòu),正是這種結(jié)構(gòu)決定了單詞的意義和用法。這種結(jié)構(gòu)包括單詞本身的固有的與上下文無(wú)關(guān)的語(yǔ)義特征以在文本中單詞與單詞之間語(yǔ)義關(guān)系特征。前者是單詞的靜態(tài)語(yǔ)義特征,后者是單詞與單詞之間的動(dòng)態(tài)語(yǔ)義特征。

  對(duì)于單詞的靜態(tài)語(yǔ)義特征,這一部分從知識(shí)本體(ontology)的高度出發(fā),分析了美國(guó)普林斯頓大學(xué)研制的詞網(wǎng)(WordNet),指出了其優(yōu)點(diǎn)和不足之處,并介紹了我國(guó)學(xué)者提出的Ontol-MT通用知識(shí)本體系統(tǒng),說(shuō)明了Ontol-MT在機(jī)器翻譯和歧義消解中的應(yīng)用。

  對(duì)于單詞與單詞之間的動(dòng)態(tài)語(yǔ)義特征,這一部分介紹了美國(guó)語(yǔ)言學(xué)家Fillmore研制的框架網(wǎng)絡(luò)(FrameNet)?蚣芫W(wǎng)絡(luò)的中心思想是詞的意義的描述必須與語(yǔ)義框架相聯(lián)系?蚣苁切叛、實(shí)踐、制度、想象等概念結(jié)構(gòu)和模式的圖解表征,它為一定言語(yǔ)社團(tuán)中意義的互動(dòng)提供了基礎(chǔ)。

  由于多義詞是任何語(yǔ)言中都普遍存在的現(xiàn)象,而多義詞中諸多的詞義分布又很不容易找到一般的規(guī)律,多義詞的自動(dòng)排歧涉及到上下文因素、語(yǔ)義因素、語(yǔ)境因素,還涉及到甚至日常生活中的常識(shí),而這些因素的處理,恰恰是計(jì)算機(jī)最感棘手的問(wèn)題。所以,詞義排歧(Word Sense Disambiguation,簡(jiǎn)稱WSD)是計(jì)算語(yǔ)言學(xué)中的一個(gè)特別困難的問(wèn)題。這一部分分析了英語(yǔ)中的詞匯歧義現(xiàn)象,介紹了幾種重要的詞義排歧方法。

  四、形態(tài)的自動(dòng)處理方法

  不論是分析型語(yǔ)言、屈折型語(yǔ)言還是黏著型語(yǔ)言,都有形態(tài)自動(dòng)分析的問(wèn)題。形態(tài)分析主要采用有限狀態(tài)自動(dòng)機(jī)和有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)來(lái)進(jìn)行。這一部分詳細(xì)地介紹了有限狀態(tài)自動(dòng)機(jī)和有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)的基本原理,通過(guò)大量實(shí)例來(lái)具體地說(shuō)明自動(dòng)形態(tài)分析的方法。

  漢語(yǔ)書(shū)面文本是連續(xù)的漢字串,單詞與單詞之間沒(méi)有空白,因此,漢語(yǔ)形態(tài)分析的主要任務(wù)就是自動(dòng)切詞和自動(dòng)詞性標(biāo)注。這一部分還分析了漢語(yǔ)書(shū)面文本中確定切詞單位的某些形式因素,為自動(dòng)切詞提供了比較可行的方法論基礎(chǔ)。

  五、句法的自動(dòng)分析方法

  句法自動(dòng)分析在計(jì)算語(yǔ)言學(xué)中叫做剖析(parsing)。所謂剖析,就是取一個(gè)輸入并產(chǎn)生出表示這個(gè)輸入的結(jié)構(gòu)的過(guò)程。所謂句法剖析(syntactic parsing),就是計(jì)算機(jī)識(shí)別一個(gè)輸入句子并且給這個(gè)句子指派一個(gè)句法結(jié)構(gòu)(例如,樹(shù)形圖,線圖)的過(guò)程。

  這一部分分別討論了目前在計(jì)算語(yǔ)言學(xué)中廣泛使用的基于轉(zhuǎn)移網(wǎng)絡(luò)的自動(dòng)句法分析方法、基于上下文無(wú)關(guān)語(yǔ)法的自動(dòng)句法分析方法、基于特征結(jié)構(gòu)的自動(dòng)句法分析方法、基于依存語(yǔ)法的自動(dòng)句法分析方法。

  六、語(yǔ)義的自動(dòng)處理方法

  語(yǔ)言的意義可以使用形式化的方法來(lái)捕捉,這種形式化方法叫做“意義表示”(meaning representation)。之所以需要這樣的意義表示,其原因在于:不論是沒(méi)有加工過(guò)的語(yǔ)言輸入,還是用自動(dòng)句法分析方法推導(dǎo)出來(lái)的結(jié)構(gòu),都不能形式化地表示出語(yǔ)言的意義。因此,這樣的“意義表示”能夠在從語(yǔ)言輸入到與語(yǔ)言輸入意義有關(guān)的各式各樣的具體任務(wù)所需要的非語(yǔ)言知識(shí)之間架起一座橋梁。我們?nèi)≌Z(yǔ)言的輸入來(lái)構(gòu)造意義表示,這樣的意義表示要使用那些與表示日常生活中的常識(shí)性的世界知識(shí)同樣的材料來(lái)構(gòu)成。產(chǎn)生這樣的意義表示并且把它們指派給語(yǔ)言輸入的過(guò)程叫做“語(yǔ)義分析”(semantic analysis)。

  這一部分分別討論了語(yǔ)言意義的四種表示方法:一階謂詞演算(First Order Predicate Calculus,簡(jiǎn)稱 FOPC)表示法,語(yǔ)義網(wǎng)絡(luò)(semantic network)表示法,概念依存圖(Conceptual Dependency diagram)表示法,基于框架的表示法(Frame-based Representation)。這些意義表示方法都可以把語(yǔ)言輸入同外界世界和我們關(guān)于外界世界的知識(shí)聯(lián)系起來(lái)。

  這一部分還討論了句法驅(qū)動(dòng)的語(yǔ)義自動(dòng)分析方法、結(jié)構(gòu)語(yǔ)義學(xué)、優(yōu)選語(yǔ)義學(xué)、孟塔鳩語(yǔ)法以及意義文本理論。

  七、語(yǔ)用的自動(dòng)處理方法

  語(yǔ)用學(xué)是對(duì)語(yǔ)言與使用環(huán)境之間關(guān)系的研究。使用環(huán)境包括像人和物這樣的本體,因此語(yǔ)用學(xué)涉及如何將語(yǔ)言用于指示(以及回指)人和物的研究。使用環(huán)境也包括話語(yǔ)的上下文,因此語(yǔ)用學(xué)也涉及話語(yǔ)結(jié)構(gòu)的形成以及會(huì)話時(shí)聽(tīng)話人如何理解談話對(duì)象的研究。

  語(yǔ)用的自動(dòng)分析才剛剛開(kāi)始,國(guó)外已經(jīng)取得初步的成果,國(guó)內(nèi)的研究還做得不多。這一部分主要討論所指判定和文本連貫的自動(dòng)分析方法。

  本課題的目的在于總結(jié)國(guó)內(nèi)外的計(jì)算語(yǔ)言學(xué)方法,使之系統(tǒng)化,理論化,具體化。由于方法的研究是自然語(yǔ)言處理系統(tǒng)(諸如機(jī)器翻譯、語(yǔ)料庫(kù)、信息檢索、信息抽取、文本分類等)的開(kāi)發(fā)的關(guān)鍵問(wèn)題,因此,本課題的研究成果,對(duì)于各種類型的自然語(yǔ)言處理實(shí)用系統(tǒng)的開(kāi)發(fā),在方法上具有普遍的指導(dǎo)意義,對(duì)于解決我國(guó)當(dāng)前在自然語(yǔ)言信息處理中的理論和現(xiàn)實(shí)問(wèn)題,具有重要的推動(dòng)作用。
(責(zé)編:陳葉軍)
RM新时代APP官网