基于本體演化和事件結(jié)構(gòu)的語義網(wǎng)模型研究
為國家網(wǎng)絡(luò)語言文字信息管理獻策建言:
設(shè)立網(wǎng)絡(luò)語言與信息監(jiān)管項目和基地,培養(yǎng)一支有語言研究能力和處理技術(shù)的忠于黨、忠于國家、忠于人民的網(wǎng)防軍
由武漢大學蕭國政、姬東鴻為首席專家的國家哲學社會科學基金重大招標項目《基于本體演化和事件結(jié)構(gòu)的語義網(wǎng)模型研究》(項目批準號:11&ZD189)始終堅持學術(shù)探索、技術(shù)基礎(chǔ)和應(yīng)用導向,積極推進成果轉(zhuǎn)化和使用,不斷提高網(wǎng)絡(luò)生活的質(zhì)量和水平,為創(chuàng)立網(wǎng)絡(luò)中國文化新面貌貢獻力量。
一
近年來,在網(wǎng)絡(luò)語言處理中,發(fā)現(xiàn)用非文字符號(含空白)代替漢字“敏感詞”的現(xiàn)象甚多,特別是在文學作品中,給網(wǎng)絡(luò)作品的發(fā)展、網(wǎng)絡(luò)界面面貌和受眾文化生活帶來不必要和可以不發(fā)生的非正面影響(為什么不必要和可克服,見后),也給一些境內(nèi)外敵對勢力和對網(wǎng)絡(luò)健康管理不理解的受眾,提供了一些不必要的攻擊理由和煽動話題。上個月,由子課題負責人吳鴻緲教授牽頭,項目首席專家蕭國政教授、姬東鴻教授等參與,通過武漢大學向上級有關(guān)部門呈送了一份關(guān)于文學網(wǎng)站小說文本敏感詞管理辦法的報告,提請領(lǐng)導和有關(guān)部門關(guān)注,提出了幫助國家用技術(shù)和相關(guān)策略,改善甚至克服該問題的智庫建議。該智庫性報告和建議,我們認為事關(guān)國家安全、社會發(fā)展、民情導向和我黨威望,現(xiàn)特以簡報形式向項目主管部門和領(lǐng)導再次報告,若認為有些合理和可能,也煩請轉(zhuǎn)呈黨和國家有關(guān)領(lǐng)導。
二
為了“凈化”網(wǎng)絡(luò)語言,我國當前對網(wǎng)絡(luò)語言文字的管理,采用的是早期簡單技術(shù)和粗放型策略。
該類技術(shù),在處理敏感詞時,采用的是直接屏蔽的方式。操作上,凡可能屬于不妥或不雅的詞或字段,皆收進“應(yīng)刪詞表”,用星號或空格“替代”。這種處理,臨時用用無妨,但長年累月,后果可以想到。這里,以各類文學網(wǎng)站中的小說文體敏感詞屏蔽的為例,看看這種技術(shù)和處理策略的后果。被屏蔽的敏感詞絕大多數(shù)為政治事件和兩性關(guān)系事件。
從被刪除替換后的網(wǎng)頁看,兩性關(guān)系類的“敏感詞”主要有以下幾類:①敏感性身體部位的名詞。如“屁股”,“乳房”,“乳頭”,“大腿”,“胴體”;②表示事件行為的動詞或動名詞。如“操”,“日”,“靠”,“性”,“豐胸”,“意淫”,“誘惑”,“嫖娼”,“撫摸”,“脫光”,“上床”,“性愛”;③與事件有關(guān)的其他名詞。如“情欲”,“激情”,“欲望”,“曖昧”,“春夢”,“初夜”,“高潮”,“性幻想”,“性感”。
如“日”有一個方言義項同“操”,結(jié)果含有“日”的字段或詞,“日”均被星號代替,如:抗 *、每*、*頭、往 *、* 后、* 歷、整*里、**夜夜、狗*的、*本人等;又如含“性”字的字段用星號替換后:人 *、* 命、耐 *、同 *、索 *、黨 *、間歇*、革命*等。
這種用星號替換的現(xiàn)象又被稱為“打碼”,還被部分網(wǎng)民和寫者戲稱為“被和諧了”。為了避免被打碼,寫手們主要采用了以下六種手段進行應(yīng)對,形成了漢字網(wǎng)絡(luò)文本非規(guī)范書寫的六種表達:(1)拆分原字,分字輸入(胴體 → 月同體);(2)形近字代替(日本 → 曰本);(3)音近字代替(大陸→大6);(4)保留原字,中間添加分隔符(對付“詞表刪除技術(shù)”,如:親熱 → 親!熱),(5)部分拼音化(胸膛 → xiong膛),(6)空格(親熱→親 熱)。
直接屏蔽關(guān)鍵字的粗放式技術(shù)手段,不僅看不到語義技術(shù)的應(yīng)用,也顯得對文字作品和受眾不夠尊重。統(tǒng)計小說《弄潮》發(fā)現(xiàn),“性”字被屏蔽340次,但僅有三處與兩性關(guān)系類事件有關(guān);“日”字被屏蔽285次,無一處與兩性關(guān)系類事件有關(guān)。一些成語和慣用語也變得讓人啼笑皆非,如“*[靠]山吃山*水吃水、”“來*[日]方長”、“十有**[八九]”、“天下事不如意者十常**[八九]”。在政治敏感詞方面,為避“國軍”,“某國軍隊”變成“某**隊”;“臺獨”被屏蔽后,如“某電視臺獨家播報”變成“某某電視**家播報”。
外事無小事,其實代表國家的語言行為更是涉及黨和國家的形象,關(guān)乎人民特別是年輕一代文化思想修養(yǎng),可以說是影響千秋萬代的事,必須高度重視。語言無小事,網(wǎng)絡(luò)(含手機)讀物,事關(guān)黨、國家、人民和民族現(xiàn)實安全和文化未來,不能簡單從事,需認真研究,必須投入經(jīng)費金額力量,進行有針對性的語義、技術(shù)、政策、策略及戰(zhàn)略研究,彰顯我們黨對國家、對人民、對歷史最具高度責任感的政治特色和光榮傳統(tǒng),同時提高我國語言學界、技術(shù)處理界的語言研究水平和技術(shù)處理水平。
三
為此,我們建議:在國家網(wǎng)絡(luò)信息安全領(lǐng)導小組領(lǐng)導下,通過社會科學基金、自然科學基金、教育部等,可把相關(guān)的工作和任務(wù),通過國家交叉學科項目招標方式招標,或?qū)⒋祟惞ぷ髦苯哟虬头猪椢薪o政治責任感強、語言和信息處理技術(shù)到位的重大項目組、學校、機關(guān)、學術(shù)團體和有關(guān)基地,與他們簽訂責任書,定期檢查、考核,優(yōu)勝劣汰,讓他們在國家有關(guān)部門領(lǐng)導、管理和監(jiān)護下,成為我黨、我國網(wǎng)絡(luò)空間的一支新型“網(wǎng)防”軍。
如果國家和有關(guān)領(lǐng)導部門認為我們的建議可行,有需要有人先行先試,我們項目組是交叉學科團隊,有上好的語言研究基礎(chǔ)、網(wǎng)絡(luò)技術(shù)基礎(chǔ)和項目研究成果,我們項目組和項目組所在的“武漢大學湖北語言與智能信息處理重點研究基地”,項目負責人所主持的“中國語文現(xiàn)代化學會語言與智能信息研究會”,愿意參與先行先試,并保證在完成好現(xiàn)有重大項目研究的同時,為國家網(wǎng)絡(luò)語言信息的安全監(jiān)管工作和履行國家智庫使命,做出我們應(yīng)有的貢獻。
在技術(shù)上,我們今天已可以做到精準剔除,最大程度地保護漢語的健康肌體。試舉兩例:一,從簡單的“關(guān)鍵詞刪除法”往前走一小步,搜索該詞前數(shù)字或/和后數(shù)字(或詞),建一個輔助性的“反刪除詞表”,如“性”,凡遇“人性、性命、耐性、索性、黨性、間歇性、革命性”(此表可根據(jù)出現(xiàn)的失誤不斷擴展),則取消刪除;用此法來避免對成語、俗語的破壞。二,更復雜一點,以大數(shù)據(jù)為基礎(chǔ)結(jié)合智能學習和深度學習,對敏感詞進行精確過濾自動攔截,如收集與相關(guān)詞語鄰近的上下文詞語,標出其頻率進行排序,結(jié)合貝葉斯網(wǎng)絡(luò)和隱馬爾可夫模型,加上適當?shù)尼槍π运惴,便可精準判斷“屁股”一詞是否出現(xiàn)在帶有色情意味的上下文中。爾后,根據(jù)需要可在此基礎(chǔ)上,再一步步往前走。
(課題組供稿)