RM新时代APP官网

舊版網站入口

站內搜索

中外關系數(shù)據(jù)庫建設中期檢查報告

2019年11月18日14:13來源:全國哲學社會科學工作辦公室

一、研究進展情況

主要內容:

一、研究計劃總體執(zhí)行情況及各子課題進展情況

為了評估中國周邊外交環(huán)境,課題組整理了中外關系數(shù)據(jù)來分析中國與外交關系。

二、調查研究及學術交流情況

(1)調研數(shù)據(jù)及文獻整理運用

為準確衡量中外關系,本課題探究了大量相關數(shù)據(jù)庫,包括:

一、中國權威的外交新聞網站

二、西方整理的各類別專項數(shù)據(jù)庫:關于軍事沖突,有烏普薩拉沖突數(shù)據(jù)項目(Uppsala Conflict Data Program)與奧斯陸國際和平研究機構(International Peace Research Institute, Oslo)聯(lián)合制作的“武裝沖突數(shù)據(jù)集”(UCDP/PRIO Armed Conflict Dataset, Version 4-2014a)。關于國內政治治理,有Property Right Protection(PRS Group’s International Country Risk Guide)。關于經濟風險,有PRS Group’s International Country Risk Guide。國內風險有IMF數(shù)據(jù),投資風險主要從法律政策變動風險、貿易保護主義風險、能源價格波動風險、通貨膨脹風險、匯率風險等進行評估。關于社會狀況,包括人口密度、民族數(shù)量, “世界概況(World Fact book)”。關于與中國經貿關系,即與中國貿易往來,有COW數(shù)據(jù)庫的“國際貿易數(shù)據(jù)集”(International Trade Dataset, version 3.0)。關于各國的軍費開支,有斯德哥爾摩沖突數(shù)據(jù)庫。

三、西方整理的外交事件數(shù)據(jù)庫:本課題組參考了大量關于沖突的事件數(shù)據(jù)。其中重要的數(shù)據(jù)庫有以下幾項:國際學界常用的奧布萊恩(O’Brien)研究的綜合沖突早期預警系統(tǒng)(the Integrated Conflict Early Warning System),該系統(tǒng)采用從多種渠道獲得關于175個國家的650萬條新聞,并用機器編碼將之建構成數(shù)據(jù)集。賓夕法尼亞州立大學的“計算事件數(shù)據(jù)系統(tǒng)”項目(The Computational Event Data System),該項目嘗試將網絡上的大量關于沖突的新聞轉換成事件數(shù)據(jù)!罢蝿邮庮A測項目組”(Political Instability Task Force, 簡稱PITF,此前也稱國家失敗預測項目組State Failure Task Force),該項目試圖預測各國政治動蕩,建立對于全球政治穩(wěn)定性問題的預警系統(tǒng)。

四、引入網絡大數(shù)據(jù): “綜合沖突早期預警系統(tǒng)”(the Integrated Conflict Early Warning System,ICEWS),以及使用電腦自動編碼的google提供的 GDELT全球事件數(shù)據(jù)項目(GDELT Event Database)。其他大數(shù)據(jù)來源,包括GIS地理信息系統(tǒng)(Geographic Information System或 Geo-Information system)和全球夜間燈光數(shù)據(jù)。

五、全球新聞媒體,包括《紐約時報》、《華盛頓郵報》、英國《鏡報》、《衛(wèi)報》、《路透社》、《法國新聞社》、新加坡《聯(lián)合早報》、《海峽時報》、馬來西亞《新海峽時報》 、《先鋒報》、《當今大馬》、《星報》 、《星洲日報》 、印尼《雅加達郵報》、《指南針報》、菲律賓《星報》、《馬尼拉公報》、泰國《曼谷郵報》柬埔寨《柬華日報》、韓國韓聯(lián)社、朝鮮朝中社、俄羅斯俄通社、日本《朝日新聞》、《讀賣新聞》。

本課題組根據(jù)以上資料來源,通過整理海量新聞事件,建立了1950年至今的中國與美國、日本、俄羅斯、英國、法國、德國、印度、巴基斯擔、澳大利亞、越南、印尼、韓國、歐盟外交關系事件庫。與傳統(tǒng)的數(shù)據(jù)庫往往以年為單位不同,這一數(shù)據(jù)庫對于雙邊關系的衡量細化到以月為單位。例如,研究人員可以得到每個月中美關系正面事件的分值,負面事件的分值以及中美關系的分值。而且從具體事件看,該數(shù)據(jù)庫也細化到了以日為單位,例如研究者可以知道哪一天發(fā)生了雙邊首腦會晤或外長會晤等外交事件。每一個事件均被細分成多個維度。因此,這一數(shù)據(jù)庫對于學者們研究中國外交的特點,發(fā)現(xiàn)其規(guī)律具有明顯幫助。

(2)學術會議

2015年10月至今,本課題組每月召開中國對外數(shù)據(jù)統(tǒng)計分析會議,包括中國各高校專家和助理學生15人左右,至今已召開40多次。會議對每個月的中外關系進行數(shù)據(jù)挖掘、量化衡量、規(guī)律探究、經驗總結和關系預測,有效提高了本課題組對中外關系的預測和預警成功率。

圍繞課題內容,課題組舉辦了各類國內的學術會議,包括:2015年12月舉行的“從清華路徑到道義現(xiàn)實主義”學術研討會,2018年7月舉行的 “中美關系再思考”研討會, 2018年7月舉辦的“大數(shù)據(jù)與國際關系研究”學術研討會。

(3)學術交流

在項目進展過程中,本課題組與機構進行了密切的交流與合作。

(4)國際合作

課題組也舉辦相關的國際會議,2016年12月在清華大學舉行了“中國學者爭論國際關系”國際研討會,該會議由澳大利亞格里菲斯大學和清華大學國際關系研究院聯(lián)合主辦,來自格里菲斯大學、美利堅大學、劍橋大學、亞利桑那州立大學、內華達大學以及國內各高校的20余位專家學者參加此次會議。

三、成果宣傳推介情況

(1)成果發(fā)布會

由于本課題成果尚未徹底完成,當前還沒有召開成果發(fā)布會

(2)《工作簡報》報送情況、國家社科基金?陡寮安捎们闆r

本課題組將在下一階段積極將現(xiàn)有成果投稿給《工作簡報》和國際社科基金?

四、研究中存在的主要問題、改進措施,研究心得、意見建議

(1)主要問題

本課題總體進展順利,相關研究成果陸續(xù)完成。研究成果的主要問題是:首先,本項課題只研究了1950年至今中國與七大國(美、日、俄、英、法、印、德)和五個周邊國家(韓、巴、印尼、越南、澳大利亞)的外交關系數(shù)據(jù),囿于人力所限,沒能對中國與世界所有國家的外交關系進行數(shù)據(jù)梳理。其原因在于,為了確保數(shù)據(jù)的精確性,本課題只采用了人工編碼的方法。

其次,課題在進程方面與國家社科規(guī)劃辦溝通不及時。

(2)改進措施

對于以上兩項問題,將通過以下措施進行改進。

首先,采取人工編碼與機器編碼相結合的方法,爭取將中外關系衡量擴展到世界各國。

其次,進行及時的溝通匯報。

(3)研究心得

首先,本數(shù)據(jù)庫是關于中國外交關系的第一個具體到國別的雙邊關系數(shù)據(jù)庫。在國際關系領域,目前國外已經有一些比較成熟和權威的數(shù)據(jù)庫,然而,國外的數(shù)據(jù)庫大多集中于西方資料,缺少與中國相關的數(shù)據(jù),因此我國需要建立與本國相關的數(shù)據(jù)。在數(shù)據(jù)建設中,關鍵是要找到可以量化的變量,通過對變量的數(shù)據(jù)進行整理,可以有助與于推進學界研究進展。本數(shù)據(jù)庫解決了對中國外交相關變量和指標的衡量問題:關于中國外交,本數(shù)據(jù)庫不僅僅是衡量雙邊關系的具體程度和分值,還按照所屬領域性質,將所有相關維度區(qū)分為經濟類、安全類、政治類和文化類。例如,對于中國對于某一國家的外交關系,我們可以根據(jù)中國與這一國家的經濟往來、貿易協(xié)議、軍事交流以及首腦互訪等指標加以衡量。其中,上述指標都可以數(shù)量化,因此,就可以建立對中國對不同國別的雙邊關系的數(shù)據(jù)庫。

第二、本課題組在分解事件維度時,按照國際關系專業(yè)的特性,將每一事件分成眾多維度。由于以上維度都可以直接變成國際關系領域的研究變量,這可以直接幫助研究人員進行研究。

第三、本課題組借助大數(shù)據(jù)挖掘和機器學習算法,有效地提高了預測的準確率。本課題組對于數(shù)據(jù)維度、變量和指標進行了精心的整理。不同于ICEWS和GDELT采取自動編碼的方式,本課題組采用人工編碼,確保了數(shù)據(jù)的準確性。從數(shù)據(jù)維度上看ICEWS在CAMEO系統(tǒng)中總共有20大類超過300種不同的事件類型。而GDELT又將300多類的事件最終分成四個大類,即言語合作(verbal cooperation)、現(xiàn)實合作(material cooperation)、言語對抗(verbal conflict)和現(xiàn)實對抗(material conflict)。但以上維度容易忽視事件發(fā)生雙方的具體外交人員及其職務、以及合作或沖突的程度。

第四、本數(shù)據(jù)建立了完善的入庫數(shù)據(jù)的真?zhèn)闻袆e機制,能夠更真實地表達雙邊關系的特性。在大數(shù)據(jù)時代,有些研究人員會直接根據(jù)爬蟲等數(shù)據(jù)挖掘技術,將相關新聞報道直接算入數(shù)據(jù),但是這會導致數(shù)據(jù)庫噪聲太大,需要多重清洗。如果清洗不干凈的話,可能會出現(xiàn)以下問題:對于某一事件,可能有多個新聞來源報道,則在挖掘時可能重復記入,導致數(shù)據(jù)庫不精確。此外,機器編碼還有可能在對事件編碼時錯誤抽取關鍵變量。

(4)意見建議

本課題組根據(jù)中外關系的大量數(shù)據(jù),能夠觀察到中外關系變化的趨勢,對于中外關系的變化能進行成功預警,并且可以探究中國外交的深層原因、嘗試找到可行的解決方案。

首先,成功對于中美關系的競爭狀態(tài)進行了早期預警。早在2017年,課題組就發(fā)布報告《2018年中美關系惡化但無冷戰(zhàn)危險》。

其次、成功預測中韓關系在薩德事件后不會明顯惡化。對于中韓關系,本課題組預測,盡管“薩德”事件發(fā)生后,有人擔心未來中韓關系會因此而持續(xù)惡化,但是根據(jù)本課題組對2000年以來中韓關系變化的衡量,課題組認為“薩德”事件對中韓關系的負面影響不太嚴重,雙邊關系惡化程度不大(《“薩德”事件后中韓關系不會過度惡化》,《國際政治科學》2016年第4期)。根據(jù)課題組對中韓關系的衡量,自建交以來,中韓關系逐年穩(wěn)步提升。在下圖中比較了中韓關系和中日關系自2000年以來的變化,從中可以看出,在2000年,中韓關系與中日關系水平接近,然而“釣魚島事件”等矛盾導致中日關系急劇惡化,相較而言,中韓關系曲線穩(wěn)中有升,因此課題組預測,“薩德”問題對中韓關系未來變化的負面影響依然有限。

第三、課題組成功對于中越關系作出了正確判斷。對于中越關系,根據(jù)我們的長期跟蹤研究,認為南海仲裁案對中越關系的影響是負面的,但尚不足以致使雙邊關系嚴重惡化。南海仲裁案結果發(fā)布后,越南政府無意改變南海地區(qū)的現(xiàn)狀,也無意為了南海爭端與中國全面對抗,故此中越關系可以維持現(xiàn)狀。(《2017年底前中越關系不會嚴重惡化》《國際政治科學》2016年第1卷第3期)

二、研究成果情況

主要內容:

一、代表性成果簡介

(1)基本內容

研究成果分為三部分:首先、建立了兩個數(shù)據(jù)庫:①定量衡量的1950-2014年的中國與大國關系數(shù)據(jù)庫,②定量衡量的1950-2014年的中國與周邊中等國家關系數(shù)據(jù)庫。

第三、完成了專著 1 本,發(fā)表中文 CSSCI 論文 18篇。自2015年以來課題組每月跟蹤中外關系變化,并且每季度發(fā)表對于中外關系衡量結果的報告,在CSSCI期刊《國際政治科學》發(fā)表了11篇中國對外關系的預測報告:此外,課題組成員在權威的國際關系期刊上,根據(jù)本數(shù)據(jù)庫和定量衡量發(fā)表了一系列相關研究,期刊包括《中國社會科學》、《世界經濟與政治》和《當代亞太》等。課題組就在整理數(shù)據(jù)庫的基礎上,出版了專著1本:閻學通與齊皓的著作《中國與周邊中等國家關系》(社會科學文獻出版2015年版)。

(2)主要觀點

本課題的主要目標是結合大數(shù)據(jù)挖掘和機器學習模型對中外關系進行衡量、預測,有效提出對外環(huán)境合理應對的建議。

(一)雙邊關系衡量賦值

本項目主要方法是對雙邊關系進行定量衡量,核心是解決從事件賦值向關系賦值的轉化,首先是對數(shù)據(jù)來源進行選擇。其次是將數(shù)據(jù)來源中與我們的研究對象和研究范圍有關的事件進行篩選和歸類。第三是在“沖突-合作”這一維度上,根據(jù)對雙邊關系的影響力大小將已發(fā)生事件轉換成一維的事件分值。第四是把事件分值進一步轉換成對雙邊關系的影響值。最后把由事件導致的雙邊關系的變化值疊加在上個月雙邊關系的分值上,得到當月的雙邊關系分值。

要有效衡量國家雙邊關系友好或敵對程度,其核心問題是解決從事件賦值向關系賦值的轉化。我們的基本設想是,雙邊關系是由眾多事件組成的,這些事件隨著時間的推移形成了一個“事件流”,對雙邊關系的衡量需要在事件累積和流動兩個維度上同時進行衡量。也就是說,對事件影響力進行累積是我們衡量的起點,測量事件影響力隨時間流動的變化是衡量的過程,雙邊關系現(xiàn)狀是衡量的終點。將事件分值轉化為雙邊關系分值的合理性,將取決于轉化后的雙邊關系分值能否與實際經驗相一致,至少要有很強的相似性。為此,我們設計了如下定量衡量雙邊關系的流程。為此,我們設計了如下定量衡量雙邊關系的流程。

(二)中國外交數(shù)據(jù)庫編碼

為了更好地體現(xiàn)中外關系,使數(shù)據(jù)庫中的各個維度有利于對中外關系的研究,本課題組對具體事件的編碼維度做了如下劃分。按照外交事件的具體內容劃分細類,對于具體事件的不同維度,課題組將之劃分為五大類別。

綜上可知,以上編碼是我們可以針對具體研究問題進行研究的基礎。

(三)雙邊關系預測

本課題組根據(jù)中外關系的大量數(shù)據(jù),能夠觀察到中外關系變化的趨勢,對于中外關系的變化能進行成功預警,并且可以探究中國外交的深層原因、嘗試找到可行的解決方案。

在對采集的數(shù)據(jù)建模中,本課題組也采用了大量適宜的模型,以提高預測的準確率和對深層因果機制的探究。課題組綜合采用傳統(tǒng)回歸方法和機器學習算法,包括以下模型和方法: ①Logit模型,這一回歸對因變量為分類數(shù)據(jù)的情況進行回歸,最后得出自變量對因變量概率變化的影響。②面板數(shù)據(jù)模型,包括動態(tài)面板模型和空間面板模型,本研究應用面板數(shù)據(jù)模型從抽象層面綜合分析中國與諸大國和周邊國家歷年來外交關系走勢,判斷核心影響因素,進而預測未來中國外交的情況、蹠r間序列預測:回歸預測對自變量的要求很高,若不能窮盡所有有影響的自變量,則可能預測準確度較差。時間序列預測是根據(jù)變量的過去變化推斷其未來趨勢。適用于自變量過于復雜,難以建立精確模型的情況。時間序列分析的實質是找到數(shù)據(jù)間的相關性,最后留下白噪聲(white noise)。在看似無序的數(shù)據(jù)中,分離出規(guī)律和無序。本課題將這一模型應用于雙邊關系預測。④樸素貝葉斯模型,這一模型是根據(jù)特征預測出其類別。但是因為樸素貝葉斯模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,在屬性個數(shù)比較多或者屬性之間相關性較大時,分類效果不好。而在屬性相關性較小時,樸素貝葉斯性能最為良好。課題組采用這一模型進行事件預測,即預測未來三個月是否會發(fā)生首腦訪問等重大事件。⑤隱馬爾科夫模型(HMM),該模型假設模型的當前狀態(tài)僅僅依賴于前面的幾個狀態(tài)。n階馬爾科夫模型中n是影響下一個狀態(tài)的(前)n個狀態(tài)。 一階馬爾科夫過程包括狀態(tài)、pi向量和狀態(tài)轉移矩陣。本課題組將之應用于對中國與美國、日本、俄羅斯、英國、法國、印度和德國的雙邊關系進行預測。預測的時間段為未來三個月雙邊關系的變化。預測的內容包括兩方面:一方面是關系走向預測,即未來三個月雙邊關系是升、降還是平?另一方面是變化程度預測,即如果預測未來某個月雙邊關系會上升,那么將上升多少?⑥基于不完全信息的信號博弈。

(3)學術價值

本課題的學術價值是:首先、本數(shù)據(jù)庫是以中文權威材料為基礎的第一個最全的中國外交數(shù)據(jù)庫。盡管西方也有關于中國的研究。但往往來源于西方媒體,其研究結論可能受報道偏向引導。本數(shù)據(jù)庫資料來源權威。除此之外,本數(shù)據(jù)庫根據(jù)課題組成員的語言和研究專長,發(fā)掘研究對象國相關政府機構和重要媒體對雙邊關系信息的發(fā)布和報道。這樣的雙向數(shù)據(jù)收集可以增加信息來源的多樣性,通過比對雙方對同一事實的不同反應,有助于全面地記錄事實并增加賦值的客觀性。這為中國與周邊國家關系研究提供了大量原始數(shù)據(jù)和研究方法方面的啟示,近幾年來出現(xiàn)大量應用“數(shù)據(jù)庫”數(shù)據(jù)或者以此方法研究中國與其他國家關系的學術論文。

其次,本數(shù)據(jù)庫借鑒了大數(shù)據(jù)GDELT,對傳統(tǒng)數(shù)據(jù)庫進行了補充,找出國際關系大數(shù)據(jù)挖掘的具體領域。同時,本課題組也采用大數(shù)據(jù)應用的機器學習算法,如隱馬爾科夫(HMM)模型、神經網絡分析等,用于對未來的關系變化的預測。建立在數(shù)據(jù)基礎上的關系研究可以為中國與周邊國家外交提供有價值的關系走向預測,幫助政策機構了解中國與周邊國家關系的階段性趨勢。

(4)社會影響

本課題組對相關數(shù)據(jù)進行了長期細致整理,得到了社會的廣泛關注。

研究成果受到同行廣泛好評:此項數(shù)據(jù)庫被國內外學者廣泛應用:例如美國哈佛大學教授Iain Johnston應用該數(shù)據(jù)分析中美關系,參見Alastair Iain Johnston, “Stability and Instability in Sino-US Relations: A Respnse to Yan Xuetong’s Superficial Friendship Theory”, The Chinese Journal of International Politics, 2011, Vol.4. No.1, pp.5-29。國內學者李巍、張萌、龐昌偉、郭銳、王簫軻、徐奇淵、陳思翀等也應用此數(shù)據(jù)庫進行研究,成果發(fā)表于各CSSCI雜志!

第三、本課題的核心成果——中外關系數(shù)據(jù)受到社會廣泛關注,被中國電子科技集團公司第二十八研究所采用。

三、下一步研究計劃

在項目推進的這幾年期間,大數(shù)據(jù)挖掘與機器學習、深度學習等建模技術突飛猛進,為了更好提高項目研究質量,與時俱進,本項目希望在以下方面繼續(xù)展開進一步的深入研究工作。

1、對相關數(shù)據(jù)進行深入挖掘與整理

(1)本項目組希望將中外關系數(shù)據(jù)從原來的1950-2014年擴展至1950年-2018年

由于本項目立項時間為2015年,因此項目組在初期工作時將外交數(shù)據(jù)庫的整理截止時間設定為2014年。

(2)本項目組希望引入GDEELT等大數(shù)據(jù)作為新的數(shù)據(jù)來源

在本項目組的初期工作中,為了保證數(shù)據(jù)的權威性,采用的數(shù)據(jù)來源主要為國內權威新聞媒體和網站。然而在英文大數(shù)據(jù)中,GDELT全球事件數(shù)據(jù)項目(GDELT Event Database)提供了全球100多種語言的媒體、網頁上的事件信息,時間跨度為1979年至今。數(shù)據(jù)量上億,包括國家、事件類型、地理位置等多個維度。因此本項目組希望在下一階段將GDELT納入數(shù)據(jù)來源,增加本數(shù)據(jù)庫的完整性和權威性。

(3)本項目組希望擴大雙邊關系衡量的研究對象數(shù)量

在項目組的初期工作中,研究對象包括大國和周邊國家:美國、日本、蘇聯(lián)(俄羅斯)、英國、法國、德國、印度、韓國、印尼、澳大利亞、越南、巴基斯坦。在下一階段的工作中,本項目組希望可以將既有的數(shù)據(jù)庫中對雙邊關系的衡量作為測試集,采用交叉驗證( Cross Validation) 法,將從大樹數(shù)中挖掘到的數(shù)據(jù)集作為訓練集,用訓練集建模,用測試集加以檢驗。從而可以將雙邊關系衡量模型推廣到中國與其他各國的關系,進而衡量中國與其他國家外交關系的賦值。

2、改進事件的編碼體系,使用人機結合的方式,將人工編碼與機器編碼有效結合

(1)改進事件的編碼體系

在數(shù)據(jù)庫中,對各變量維度的編碼是核心內容。在編碼分類上,西方的事件數(shù)據(jù)庫中,主要的研究動機是希望適用于沖突領域,因此其事件的劃分類型和具體維度往往圍繞沖突相關的變量而進行展開。在分析中國外交事件時,有些對于雙邊關系影響重大的類別,在CAMEO或者 ICEWS系統(tǒng)等西方常用編碼系統(tǒng)中則受到忽視。例如GDELT大數(shù)據(jù)庫使用的編碼體系也是CAMEO系統(tǒng)。在CAMEO系統(tǒng)中,共分為20大類,包括的事件有300個以上。在GDELT數(shù)據(jù)庫中,這300多類事件劃分為四個類別:口頭合作類(verbal cooperation)、事實合作類(material cooperation)、口頭沖突類(verbal conflict)和事實沖突類(material conflict),具體的維度有事件的發(fā)生時間、事件主動方的國家名、事件接受方的國名、事件的性質、事件的影響、該事件在各網址新聞等數(shù)據(jù)來源中被提及的次數(shù),事件被報道時的語氣,事件發(fā)生地的地理經緯度、數(shù)據(jù)錄入時間、事件的信息來源等。因此,為了更好地體現(xiàn)中外關系,在新的數(shù)據(jù)庫中,將提供有利于分析和衡量中外關系程度的變量作為編碼系統(tǒng)。

(2)采用事件的自動編碼軟件,使用人機結合的方式,將人工編碼與機器編碼相結合

本數(shù)據(jù)庫的核心內容是對外交事件的編碼。數(shù)據(jù)庫內容中,最重要的就是對變量維度的編碼,因為這直接決定了研究的內容和方向。在西方創(chuàng)建的事件數(shù)據(jù)庫中,早期大量采取人工編碼方式。查爾斯·麥克萊蘭 (Charles McClelland)對外交史采取了人工手動編碼的方式。隨著計算機技術的進步,一些研究項目開始采取計算機自動編碼的方式。在上個世紀80、90年代,美國堪薩斯事件數(shù)據(jù)系統(tǒng)(Kansas Event Data System,KEDS)利用WEIS的事件編碼系統(tǒng)通過計算機自動編碼新聞事件。此外還有一些常用的編碼系統(tǒng):Conflict and Mediation Event Observations(CAMEO),the Integrated Data for Event Analysis (IDEA) (這一編碼系統(tǒng)被以下項目使用the Protocol for Nonviolent DirectAction (PANDA)),斯洛德特還開發(fā)了使用這個編碼系統(tǒng)的軟件(Textual Analysis by Augmented Replacement Instructions ,TABARI)。隨著大數(shù)據(jù)挖掘的深入發(fā)展,西方一些科研項目采取了大數(shù)據(jù)挖掘和自動編碼相結合的結束。21世紀的項目the Integrated Conflict Early Warning System(ICEWS)針對亞太地區(qū)收集數(shù)據(jù),這一項目采用的自動編碼程序為BBNACCENT。目前美國最新開發(fā)的新編碼系統(tǒng)是Political Language Ontology for Verifiable Event Records(PLOVER),編碼軟件是Python Engine for Text Resolution And Related Coding Hierarchy,PETRARCH-2。

本數(shù)據(jù)在下一步將建立人機結合的編碼方式,以完善入庫數(shù)據(jù)的真?zhèn)闻袆e機制。在大數(shù)據(jù)時代,很多數(shù)據(jù)是直接根據(jù)爬蟲等數(shù)據(jù)挖掘技術,將相關新聞報道直接算入數(shù)據(jù),但是這會導致數(shù)據(jù)庫噪聲太大,需要多重清洗。如果清洗不干凈的話,可能會出現(xiàn)以下問題:對于某一事件,可能有多個新聞來源報道,則在挖掘時可能重復記入,導致數(shù)據(jù)庫不精確。此外,機器編碼還有可能在對事件編碼時錯誤抽取關鍵變量。

為了避免以上數(shù)據(jù)挖掘和機器編碼的常見失誤,本數(shù)據(jù)庫將建立了人工編碼和機器編碼結合的入庫數(shù)據(jù)的真?zhèn)闻袆e機制,主要依靠專業(yè)人士人為甄別。對于相關新聞和數(shù)據(jù)的真?zhèn),可以由專業(yè)人士進行初步篩選,然后將所得數(shù)據(jù)給相關研究領域的專家進行判別,看數(shù)據(jù)結果與專家感覺是否一致,若差異不大,可以認為數(shù)據(jù)沒有大的疏漏。最后根據(jù)數(shù)據(jù)庫的研究問題,尋找數(shù)據(jù)庫來源以外的其他權威資料來源,根據(jù)多個資料對數(shù)據(jù)進行檢驗,從而增強數(shù)據(jù)的真實性。因此,本數(shù)據(jù)庫依據(jù)專家檢驗和史料核實建立判別機制,可以保證數(shù)據(jù)庫內容的準確性。

(課題組供稿 )

(責編:孫爽、艾雯)
RM新时代APP官网