近些年來,全球史學(xué)界和圖書館界掀起一股構(gòu)建歷史數(shù)據(jù)庫的浪潮,主題、形式各異的歷史數(shù)據(jù)庫層出不窮,研究者所能掌握的史料規(guī)模呈現(xiàn)出巨量增長。如何做到既有量的增長,又有研究方法的提升,特別是發(fā)揮數(shù)據(jù)史料的特點(diǎn),形成比肩甚至超越過往紙質(zhì)史料利用深度和效率的研究,推動學(xué)術(shù)發(fā)展,便成了亟待探索的新問題。筆者認(rèn)為,“互聯(lián)”“互通”是互聯(lián)網(wǎng)的重要特點(diǎn),歷史數(shù)據(jù)庫的構(gòu)建與研究,應(yīng)重視數(shù)據(jù)庫自身信息的“內(nèi)連接”和數(shù)據(jù)庫之間信息的“外連接”,以盡可能地實(shí)現(xiàn)“數(shù)據(jù)追蹤”,由此方能發(fā)揮電子數(shù)據(jù)的優(yōu)勢,推動新技術(shù)環(huán)境下史學(xué)研究的深化發(fā)展。
歷史數(shù)據(jù)庫的“內(nèi)”與“外”
“內(nèi)連接”和“外連接”本是信息學(xué)科針對關(guān)系型數(shù)據(jù)庫(relational databases)進(jìn)行數(shù)據(jù)查詢、分析時(shí)所采取的方法,本文將此概念移用于歷史數(shù)據(jù)庫的構(gòu)建與研究!皟(nèi)連接”主要包含兩層含義:一是指某一數(shù)據(jù)庫在建設(shè)時(shí)力爭利用多來源史料中能相互匹配的信息,進(jìn)行信息連接以擴(kuò)充數(shù)據(jù)庫內(nèi)容;二是指利用某一數(shù)據(jù)庫進(jìn)行研究時(shí),應(yīng)注意其中信息的相互連接,以拉長研究的時(shí)段、代際或擴(kuò)大空間范圍等!巴膺B接”主要是指不同主題但內(nèi)容、關(guān)系等方面具有連接可能的數(shù)據(jù)庫,在開放的前提下,實(shí)現(xiàn)相應(yīng)數(shù)據(jù)信息的連接,從而突破單一數(shù)據(jù)庫主題明確但信息范圍相對局限的制約,從學(xué)術(shù)研究層面真正實(shí)現(xiàn)數(shù)據(jù)庫建設(shè)與研究的“共享”與“共贏”。
歷史數(shù)據(jù)庫信息“內(nèi)連接”與“外連接”的最終目的,是將存儲于各主題數(shù)據(jù)庫中的相關(guān)信息逐步從靜態(tài)推向動態(tài),實(shí)現(xiàn)“數(shù)據(jù)追蹤”。如利用多種材料或不同數(shù)據(jù)庫的互相連接,可以連綴起個(gè)人和某些群體不同時(shí)間節(jié)點(diǎn)的信息,形成一種動態(tài)化的“追蹤數(shù)據(jù)”!白粉檾(shù)據(jù)”的形成,使得某些歷史人物甚至群體的經(jīng)歷更加豐富或連續(xù)起來,這對理解和研究歷史人群的社會行為具有極高的學(xué)術(shù)價(jià)值。
連接不同史料與信息
即便是單一主題的歷史數(shù)據(jù)庫,其包含的具體史料也是規(guī)模龐大、類型繁多的。這些史料中的某些信息是能被連接起來、形成數(shù)據(jù)鏈的。如“中國近現(xiàn)代思想史專業(yè)數(shù)據(jù)庫(1830—1930)”收錄了多種晚清民國的報(bào)刊和個(gè)人著述,總字?jǐn)?shù)達(dá)到1.2億。一些學(xué)者通過檢索的方式和統(tǒng)計(jì)工具的幫助,將某一具體概念或思想主題(如“主義”“青年”“民族”等)連接起來,從而能夠分析這些近現(xiàn)代史上重要概念的形成與歷史演變,“驗(yàn)證”或“突破”了既有的研究結(jié)論,實(shí)現(xiàn)了學(xué)術(shù)創(chuàng)新。
人物主題數(shù)據(jù)庫是較為常見的一類歷史數(shù)據(jù)庫,通過內(nèi)部連接,往往能夠形成以人物為主干的信息鏈條。筆者正在建設(shè)的“民國大學(xué)生信息數(shù)據(jù)庫”,即是以個(gè)人基本信息為基礎(chǔ)的數(shù)據(jù)庫。數(shù)據(jù)庫中每一名學(xué)生的信息既有個(gè)人自身的,也有家長和保證人的。通過數(shù)據(jù)庫內(nèi)部連接計(jì)算發(fā)現(xiàn),很多家長本身也是大學(xué)生,能夠連接形成追蹤數(shù)據(jù),進(jìn)而獲得三代人的基本信息,這為中國近現(xiàn)代史上多代際教育獲得與社會流動研究提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。以親友為主的保證人通常是學(xué)生最主要的社會關(guān)系,將不同學(xué)生的保證人信息進(jìn)行連接,可以發(fā)現(xiàn)很多學(xué)生具有同一家長、共同親友,也就挖掘出了學(xué)生的家庭、社會關(guān)系網(wǎng)絡(luò)。
連接不同主題數(shù)據(jù)庫
中國歷代人物傳記資料庫(簡稱CBDB)的領(lǐng)導(dǎo)者、哈佛大學(xué)教授包弼德指出,隨著“數(shù)字人文”的發(fā)展,歷史數(shù)據(jù)庫的建設(shè)大為增加,數(shù)字?jǐn)?shù)據(jù)(史料)迅速膨脹,數(shù)據(jù)生產(chǎn)者之間的協(xié)作也就越來越重要。通過數(shù)據(jù)庫的開放和協(xié)作,形成不同主題數(shù)據(jù)庫的信息連接,是其中最能發(fā)揮數(shù)字?jǐn)?shù)據(jù)優(yōu)勢、推動學(xué)術(shù)研究的一種方法。
“民國大學(xué)生信息數(shù)據(jù)庫”收錄的雖然主要是民國時(shí)期教育精英的基本信息,但數(shù)據(jù)庫中早期學(xué)生的家長,往往上溯到晚清時(shí)期。香港科技大學(xué)教授康文林領(lǐng)導(dǎo)建設(shè)的清代《縉紳錄》數(shù)據(jù)庫,包含整個(gè)清代官員信息,其中有一些光緒、宣統(tǒng)年間的數(shù)據(jù),經(jīng)過計(jì)算能夠與“民國大學(xué)生信息數(shù)據(jù)庫”中的學(xué)生家長信息進(jìn)行匹配,這對理解民國大學(xué)生的家庭來源以及近代教育轉(zhuǎn)型對家庭的影響都頗有助益。而《縉紳錄》數(shù)據(jù)庫本身又能夠與CBDB數(shù)據(jù)庫中的明清人物、進(jìn)士題名錄等材料連接起來,這些官員人物的個(gè)人信息也由此大為豐富起來。
“外連接”還可以應(yīng)用于主題數(shù)據(jù)庫與大型電子文獻(xiàn)數(shù)據(jù)庫的連接。越來越多的報(bào)紙、期刊乃至各類史料文獻(xiàn)都在被逐步電子化,這類文獻(xiàn)數(shù)據(jù)庫中蘊(yùn)含有大量的尚未結(jié)構(gòu)化的歷史信息。雖然多數(shù)數(shù)據(jù)庫只提供開放檢索而不能進(jìn)行后臺數(shù)據(jù)的直接抓取,但依靠手動檢索和比對考證,還是能夠與一些主題數(shù)據(jù)庫實(shí)現(xiàn)系統(tǒng)性數(shù)據(jù)連接的!懊駠髮W(xué)生信息數(shù)據(jù)庫”收錄了1929年前清華大學(xué)全部的庚款留美生。這批留美生是民國時(shí)期最為成功的留美者,梳理他們的職業(yè)發(fā)展軌跡,對理解民國社會發(fā)展和近代化轉(zhuǎn)型等問題意義重大。但即便依靠“內(nèi)連接”,主要是清華校方1920—1937年間多次出版的《同學(xué)錄》等材料,依然只能獲得60%留美生的唯一職業(yè)信息。而通過與目前已開放的各類近現(xiàn)代報(bào)刊數(shù)據(jù)庫(如上海圖書館的“晚清、民國期刊全文數(shù)據(jù)庫”)、現(xiàn)代出版物數(shù)據(jù)庫(讀秀、超星等)等,手動逐一檢索每位留學(xué)生,能夠連接上大量的職業(yè)信息。到目前,留美生的平均職業(yè)屬已經(jīng)從0.6個(gè)上升到7個(gè)左右,這為研究清華留美生的職業(yè)發(fā)展及其與中國近代化的關(guān)系等問題提供了可能。
數(shù)據(jù)追蹤成為重要研究方法
這些研究實(shí)踐讓我們體會到,過去學(xué)界多認(rèn)為利用數(shù)據(jù)庫進(jìn)行史學(xué)研究,最重要的優(yōu)點(diǎn)是對史料的大規(guī)模使用,能夠“廣”而“全”地使用史料,F(xiàn)在,隨著越來越多的數(shù)據(jù)庫被建設(shè)起來,并向?qū)W界開放,數(shù)據(jù)庫之間進(jìn)行數(shù)據(jù)的各種“連接”的可能大為增加,“數(shù)據(jù)追蹤”越來越成為數(shù)據(jù)庫研究的重要方法。數(shù)據(jù)庫研究的特長,不僅能夠“廣”而“全”,也越來越能夠“!鼻摇吧睢。
在進(jìn)行歷史數(shù)據(jù)庫數(shù)據(jù)連接時(shí)還有一些問題需要注意。對“內(nèi)連接”而言,數(shù)據(jù)連接必須合理和可靠。比如一些人物關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)連接,因?yàn)橥F(xiàn)象的普遍存在,研究者顯然不能僅僅根據(jù)姓名這一單一信息進(jìn)行連接,更何況同一人物也可能存在多個(gè)姓名(字/號)的問題。研究者需要在盡可能設(shè)定如年齡、籍貫、畢業(yè)學(xué)校等限制性條件的同時(shí),還要進(jìn)行必要的人工復(fù)檢。
對“外連接”而言,數(shù)據(jù)庫的開放至為關(guān)鍵。不僅是前臺數(shù)據(jù)檢索的開放,更需要后臺接口的開放,這樣研究者才能植入相應(yīng)的軟件程序進(jìn)行數(shù)據(jù)提取、分析等工作。香港科技大學(xué)李中清、康文林研究團(tuán)隊(duì)的中國多世代人口數(shù)據(jù)庫(CMGPD)、哈佛大學(xué)包弼德領(lǐng)導(dǎo)的CBDB數(shù)據(jù)庫等都實(shí)現(xiàn)了這樣的全面開放,但目前能如此做的歷史數(shù)據(jù)庫還很少。這是因?yàn)椴粌H數(shù)據(jù)庫開發(fā)工作的成果認(rèn)定尚缺少明確的學(xué)術(shù)標(biāo)準(zhǔn),數(shù)據(jù)庫開放后的知識產(chǎn)權(quán)保護(hù)更是難題。不過,當(dāng)前在自然科學(xué)和生命科學(xué)領(lǐng)域,已經(jīng)建設(shè)起研究數(shù)據(jù)共享的規(guī)范,這對社會科學(xué)和人文學(xué)科的影響正在逐漸凸顯,越來越多的學(xué)術(shù)基金和學(xué)術(shù)期刊已經(jīng)逐漸要求研究者提供原始數(shù)據(jù)。如果說,最初希望數(shù)據(jù)公開的動因是檢驗(yàn)已經(jīng)發(fā)表的分析結(jié)果,現(xiàn)在,學(xué)界則越來越意識到共享數(shù)據(jù)還有更重要的目的:一是數(shù)據(jù)庫開放后,其他研究者可以用來進(jìn)行完全不同的課題研究。這或許與數(shù)據(jù)庫建立者的初衷不同,但無疑提高了數(shù)據(jù)庫的使用效率;二是與其他數(shù)據(jù)庫結(jié)合,構(gòu)建覆蓋范圍更大的數(shù)據(jù)庫。隨著這種認(rèn)識和數(shù)據(jù)庫連接的重要性不斷為學(xué)者們所接受,學(xué)術(shù)界應(yīng)盡快開始討論、制定數(shù)據(jù)庫開放標(biāo)準(zhǔn)和成果保護(hù)準(zhǔn)則。
(作者單位:南京大學(xué)歷史學(xué)院暨數(shù)字史學(xué)研究中心)