一
語料庫自上個世紀70年代末以來在我國逐漸興起、發展,取得了長足的進步。從國内外形勢來看,語料庫語言學已經成為語言研究的主流。古代漢語語料庫與現代漢語語料庫相比較而言,無論規模還是影響,都有明顯的差距。造成這種差距的原因是多方面的,隨着電腦的發展和普及以及語言研究的需求,古代漢語語料庫漸漸發展起來。
目前古代漢語語料庫的類型主要有兩種:一是文本型,一是資料庫型。文本型就是把紙質文獻上的文字輸入電腦,用文本軟件自有或專用軟件提供的搜索功能進行檢索,它又可以分為平面型和層級型兩種。早期的文本型語料庫從内容層級上講只有一層,所以又被稱為平面型語料庫,它不分層,對原文與注疏合一的文本内容只能在同一個平面上共存,檢索時無法指定内容範圍是原文還是注或疏。它的優點是製作相對簡單,所以很多單位和個人都有不少此類成果。超文本技術使文本的構成由單層級發展為多層級,為區分原文和注疏提供了可能,尤其是XML語言的出現為製作多層級文本提供了方便、有力的工具。華中科技大學尉遲治平老師製作的“數字化傳統小學工具書”系列堪稱目前古籍數字化的最佳代表,他們把多層級的古代語言學工具書製作成XML文檔,能進行任一個層級的獨立檢索和多個層級的組合檢索,這樣可以把不同的人對同一原文的注疏隨意檢索,在《廣韻》這樣有很多又音、又切的多層級韻書中也可以隨意指定層級進行檢索。XML的製作比以前純粹的平面型文本要難一些,但是實現了多層級化。文字數量不大的單本古籍XML檢索速度還不錯,如果文字數量大,XML就顯得非常無力,因為它是文本,主要供閲讀,畢竟與專門進行海量資料快速檢索的資料庫不同。目前各種規模的流行資料庫都支持與XML進行轉换,使得XML文本的應用前景十分廣闊。平面型文本資料庫的價值在於保存了古籍的文字原貌並可以進行簡單檢索,XML文本則比平面型文本增加了保存原文層級結構的優點,二者可以用於不同層級結構的古籍。如果要增加語言研究信息,平面型文本是没有辦法實現的,因為增加之後就不能保存古籍原貌;XML文本的標記一般情況可以隱藏不顯,用於標注變化量不大的語法標記還可以,而義項等變化量大的内容則無法用標記來代替,所以義項等複雜信息只能通過資料庫來實現。
資料庫型的語料庫分為兩種,一種没有對語料進行標注等加工處理,稱為生語料庫,它往往由文本型語料庫直接生成。由於文本有平面型和多層級之分,生語料庫也可以再細分為平面型生語料庫和層級型生語料庫。平面型生語料庫代表産品在大陸以單機版“國學寶典”、“漢籍全文檢索系統”等為代表,港臺則以香港中文大學“漢達古籍資料庫檢索系統”、中華電子佛典協會的“CBETA大正藏檢索系統”、臺灣中研院的“瀚典”系統(未標注的語料部分)等為代表;層級型生語料庫以“四庫全書”、“龍語瀚堂”等為代表,它們不僅可以只檢索原文或注疏等某個單一層級,還可以多個層級組合。與生語料庫相對的另一種語料庫稱為熟語料庫,因進行了標注等加工處理而得名。由於它面向專門的研究領域,為專家、學者的需要而建設,所以又被稱為研究型語料庫或專家(學者)型語料庫。就目前已有的語料庫來看,精加工古代漢語語料庫不多,收入的中古語料很少。臺灣中研院的“瀚典”系統和“近代漢語標記語料庫”,標注和加工的還只限於上古和近代的部分語料,中古語料則是没有處理的生語料;北大“CCL”系統中標記的既有現代語料,也有古代語料,但是中古語料選得較少,還不能反映中古漢語的實際情況。以上三種最具影響力、規模最大的帶標記的古代漢語語料庫在語料上共同的不足是中古語料太少,只標記了語法信息,没有標注義項,更没有校勘等信息。
現在收録中古語料最多的是香港中文大學“魏晉南北朝一切傳世文獻電腦化資料庫研究計劃”,該項目雖是獨立項目,卻是香港中文大學中國文化研究所規劃的“漢達文庫”計劃的組成部分。自1992年立項到現在,已經輸入近1 000種,總共超過2 500萬字的中古語料。它的收録時限上起魏國建元,下至隋朝建元,與漢語史學界認可的中古相比較,前面缺少東漢到魏、後面缺少隋這兩個時間段的内容。從性質上講,它是平面型文本語料庫,没有加注任何研究信息。
近幾年由挪威奥斯陸大學(University of Oslo)著名漢學家何莫邪教授主持主編(北京大學蔣紹愚教授擔任副主編)的《新編漢文典》(Thesaurus Linguae Sericae,簡稱TLS)是一部研究漢語言概念發展,並與古希臘、古拉丁等世界其他文明的概念發展作對比的線上百科全書,為目前國際漢學界研究跨度最大、研究最深入全面、合作領域最廣泛的一項有關漢語言概念範疇網絡的系統綜合工程。TLS並非單純意義上的漢學詞典,它從漢語言在歷史上的發展及受外來影響的角度出發,把研究重點放在五個階段:甲骨文時期、銅器銘文時期、先佛時期、佛教漢語口語時期、北京普通話時期,涉及材料廣泛而豐富。實現了從最初的資料庫(RAW DATABASES)到知識庫(INFORMATION DATABASES)再到分析庫(ANALYTIC DATABASES)的跨越。TLS既是一部網絡化的動態百科全書,又是融合有古漢語同義詞、反義詞、句法結構、修辭法、文獻對照翻譯且具有較强檢索功能的互動式詞典型語料庫。到目前為止,TLS收入詞條約27 000條,例句60 000多句,句類600多種,同義詞構組2 086組(並且其内部種屬或部分整體屬關係都已得到確定,1 078組已經過語義對比分析),已經翻譯並有詳細批註的甲骨800多片,已有德語翻譯和批註的銅器銘文達1 560條,先佛時代的30多部典籍都有逐字逐句的對照翻譯,經過翻譯的段落85 000個之多。此外,它還包括了高本漢(B.Karlgren)的《古漢語文典》和蒲立本(E.G.Pulleyblank)的《發音詞典》(1993)等多部詞典,並且收入了7世紀的《經典釋文》、1008年的《廣韻》以及潘悟雲教授對古代音韻的構擬。[1]它雖然對中古的語料强調佛經材料,但實際收録的並不多,其他類别的内容則少有涉及。
綜觀國内外研究現狀,要麼對中古的語料收録不多,要麼没有進行精細加工。因此,精加工的中古漢語語料庫亟需建設。正因為此,我們目前決定投入較大的力量,進行這方面的工作的嘗試。
二
目前學界一般認為,中古漢語是指東漢到隋這一歷史時期的漢語。要進行完整的漢語史研究,中古漢語的重要性是不容忽視的。中古時期社會動蕩、戰亂頻仍,民族融合加劇,語言本身也發生巨大的變化。言文分離的現象日趨明顯,新詞新義層出不窮,尤其是複音詞大量産生,成為中古詞彙發展的重要特點,新的詞法、句法結構不斷湧現,凸顯出中古語法不同於上古語法的獨特之處。對這一階段的漢語進行全面深入的研究,對漢語史研究向縱深發展具有十分重要的意義。中古漢語語料豐富且涉及領域廣泛,如史書、小説、雜帖、詩歌、道藏、佛經以及農書、醫書、法制文書等等。既有本土傳世文獻,又有受外來文化影響而産生的漢譯佛典;既有以往研究多所關注的正統文獻,又有較少觸及的諸如醫書、法制文書等“新型”文獻。圍繞豐富的中古漢語語料,近二十年來,學界投入了極大的研究熱情,也取得了一系列的豐碩成果,關於中古漢語專書研究、專題研究、斷代研究的專著及論文不可勝數。與此同時,隨着電腦普及和網絡發展,古籍數字化的工作也悄然展開,一批可供檢索的單機版或網絡版的語料庫(或多或少地涉及中古漢語的一些語料)應運而生,在一定程度上方便了漢語史研究者。但是應該看到,這些語料庫存在着不少有待完善的地方,比如往往只能進行平面式單個詞語的檢索,缺乏組合式檢索或限定條件檢索;庫内所選語料繁雜且欠缺精細的校勘,字詞乃至標點錯漏之處比比皆是,文獻可信度不高。因此,在現階段,如何充分整理、精細加工中古漢語語料,使其不僅僅停留於單個詞語的平面檢索,而是建立一個研究型的語料庫,不僅對於新世紀的中古漢語研究,而且對於推動語料庫建設由大而全向精而准方向發展,都具有極其重要的意義。
進行“精加工的中古漢語研究型語料庫”的建設,可以為中古漢語乃至整個漢語史的研究提供確實可信的研究型電子語料。若想對語言現象進行充分的解釋,乃至總結規律、升發理論,都必須建立在對文獻充分觀察、描寫的基礎上。“精加工的中古漢語語料庫”,將選擇一批中古時期有代表性的語料,對它們進行逐句核對,加以校勘並標注句式;切分詞語、標注義項及語法地位,能够保證描寫的充分具體,不會造成主觀上的忽略或遺漏,同時也能在很大程度上保證文獻的真實性和可信度。這樣的電子語料一旦加工成形,將會對以後中古漢語的研究帶來極大的方便。
進行“精加工的中古漢語研究型語料庫”的建設,可以從根本上改變以往語料庫大多僅支持單個字詞檢索的局限性,它的檢索功能將大大提升。比如從詞法層面上,可以實現以某一個詞為中心,前附x(x代表≥1個字)個或後附x個字進行檢索的條件,可以按音節數來檢索需要的詞語,可以從詞綴入手進行搜索,可以從義項入手進行檢索,甚至可以檢索一個詞類,等等;從句法層面上,對有標記的句式可以根據句中的標記進行組合檢索,對於無標記的句式,可以根據已有的句式標注進行檢索。此外,還可以進行多重檢索條件的組合,使所需資料快捷呈現,一步到位,展示具體詞語、結構、語法現象在此期的詳盡情況。
“精加工的中古漢語研究型語料庫”並非平面的文本型語料庫,而是一個標準義項、語法地位等信息的多層級的研究型語料庫,它的建立,將對中古漢語研究起到有效的輔助促進作用。比如就中古漢語詞彙研究而言,研究主要包括詞語的考釋、常用詞演變的研究、構詞法的研究、專書詞彙的研究以及各階段詞彙系統的研究等方面,如果要建立一個“精加工的中古漢語研究型語料庫”,無疑會對中古漢語詞彙研究的諸方面有不同程度的推進作用。對每一個詞語進行義項標注,必然涉及單個詞語的考釋,而將每個詞語核之《漢語大詞典》,又會為《漢語大詞典》收詞、義項、引例等諸多方面提供有益的訂補。在切詞標注義項時,對常用詞進行適當的標記和説明,語料庫完全建立後,可以通過特定檢索,形成中古時期的常用詞表,為常用詞演變研究提供細緻的基礎資料。漢語詞彙發展的總趨勢是複音化,但中古時期的複音化情況究竟如何?單音詞與複音詞的互動關係怎樣?在不同類型的文獻中單、複音詞所占比例如何?從東漢到隋是單音詞增長的速度快還是複音詞增長的速度快?通過逐詞切分的精加工語料庫的統計分析,相信會使我們對中古詞彙複音化有一個更為深刻的認識。每一部文獻標注完畢,即是一部專書詞典,對專書詞彙研究將有非常重要的參考價值。通過對全部標注詞語義項的考察、分析,整理出其中具有引申關係、同源關係、同義或反義關係的詞語系列,將有助於對中古階段詞彙系統性的探索。
總之,建立一個“精加工的中古漢語研究型語料庫”,既可以提供一個精加工的中古代表性語料的集合,又可以有效利用語料庫技術促進中古漢語研究的深入發展,實現古代文獻與現代科技的完美結合。
三
我們的目標是建設一個具有多集合特點的研究型語料庫,内容上是中古代表性語料的集合,結構上是校勘庫、義項庫、語法樹庫、平行庫、音韻庫等多庫的集合,功能上是自動分詞軟件、自動標注軟件、檢索系統軟件等多種功能軟件的集合。
這一語料庫的第一階段,預計收録原始語料為500萬字,庫容8 000萬字。主要内容分為:
(一)校勘文本庫。我們先選擇善本,並把文字内容録入語料庫,再把各版本的異同一一録入,並加上校語。比如史籍類有《宋書》、《魏書》等,子書類有《列子》、《論衡》、《顔氏家訓》等,小説類有《搜神記》、《殷芸小説》、《世説新語》等,詩歌類有《魏晉南北朝詩》等,佛教類有《法顯傳》、《觀世音應驗記三種》、《經律異相》、《高僧傳》、《百喻經》等,道教類有《太平經》、《抱朴子内篇》等,農書類有《齊民要術》等。其中部分文本選擇目前最好的校注本,部分文本我們自己作了精心校勘。如《世説新語校注》(董志翹校注,高等教育出版社2008)、《觀世音應驗記三種譯注》(董志翹譯注,江蘇古籍出版社2002)、《〈經律異相〉整理研究》(董志翹等校理,巴蜀書社即出)。
(二)詞語義項庫。我們對所有語料的詞語進行了切分(開始時人工切詞,切詞軟件試製成功後即自動切詞,然後人工校正),每個詞語標注義項,義項主要以《漢語大詞典》為參考,並吸收學界最新的研究成果(如蔡鏡浩《魏晉南北朝詞語例釋》[2],王雲路、方一新《中古漢語語詞例釋》[3],董志翹、蔡鏡浩《中古虚詞語法例釋》[4],周一良《魏晉南北朝史劄記》[5],方一新《東漢魏晉南北朝史書詞語箋釋》[6],李維琦《佛經詞語匯釋》[7],王雲路《六朝詩歌語詞研究》[8]等中古漢語詞語研究專著及大量相關論文,以及張永言主編《世説新語辭典》[9]、張萬起編《世説新語詞典》[10]等專書詞典,並將其中部分輸入語料庫,以便自動檢索核對),同時把《漢語大詞典》中的未釋、誤釋、失收等情況寫入“備註”,並録入語料庫,供使用者參考、查看。
(三)語法樹庫。語料庫的句法標注是語料庫語言學研究的前沿課題,當前熱門之一,現代漢語、英語、中英雙語等已經建成一些影響力大、實用性强的樹庫。樹庫的特點是可以精確地描述一句話的各個語法成分及相關成分之間的關係,是層次分析法在資料庫裏的實現。它的應用對象不僅包括語言研究,還包括自動生成、自動翻譯、電腦語言學習等尖端前沿領域。國外不僅建成了一些現代語言的樹庫,還建成了古希伯來語、古埃及語等已經消亡的古代語言的樹庫。國内對此的研究和建設也比較早,湧現出一批喜人的成果,國家級項目有國家語委“十五”科研重大項目“現代漢語語料庫的建設及深加工”,其中有100萬漢字的句法樹庫;另有一些單位和個人建設的數目較多的小型樹庫,尤以面向對外漢語教學的居多。古代漢語到目前為止還没有一個語法樹庫,我們將對中古的語料逐句進行句式標注,然後進行逐詞切分,再按每個詞語的語法構成層級地位進行語法信息標注,從而形成語法樹庫。
(四)古今漢語平行語料庫。埃及出土的羅塞塔石碑,其碑文用兩種語言、三種文字刻成,是現存最早的古代的平行語料。通過比較石碑上的文字,法國古代語學者商博良解讀了古埃及的象形文字。此外,用不同語言對照書寫的契約協定、宗教經典、文學作品也在不同的時期和不同的領域出現。20世紀50年代末,平行語料開始出現在機器翻譯研究中。1987年,Martin Kay和Martin Roscheisen提出了最早的平行語料自動對齊演算法。之後各種對齊方法層出不窮,對齊後的平行語料也被系統地應用到自然語言處理中,包括建立翻譯記憶、編纂詞典和雙語術語表、跨語言信息檢索、電腦輔助教學、語言對比研究等。國内以北京大學的“babel漢英平行語料庫”最為著名,其規模已經達到20萬句對,目前來説是世界上最大的句對齊漢英平行語料庫。此外我國還有漢日、漢法、漢俄等多個語種的平行語料庫,顯示出平行語料庫在語言對比研究、翻譯研究及詞典編纂中日益顯著的作用和巨大的科研及實用前景;微軟亞洲研究院與哈爾濱工業大學合作開發的“英漢並行語料庫”已於2004年建成,它是60 000句詞一級對齊的雙語語料庫,是目前全世界最大的英漢詞對齊語料庫,它的建成極大促進了機器翻譯領域的研究。可以説,句對齊和詞對齊平行語料庫把語言的科學研究與實際應用完美地結合起來了。由於古代漢語的特點和難度,現在還没有古今漢語的翻譯軟件出現,我們採用人工的方式,把每句話用通俗易懂的語言進行翻譯,構成古今漢語平行語料庫。它可以方便對古代漢語不是很熟悉的使用者閲讀,更可以為機器翻譯、語言學習等領域提供基礎材料。
(五)中古韻文音韻庫。我們針對詩歌、駢體文等韻文自身的特點,對韻文材料中的韻腳字等進行特别處理,把它們的中古音韻地位標出來(依據于安瀾《漢魏六朝韻譜》[11])。既體現了韻文本身的特有價值,又方便音韻學專家進行研究。這樣我們做到了量體裁衣、因材而標,充分重視並體現不同類别的語料具有的不同特點和價值。
(六)集成系統。我們設計了一個開放式系統,自行設計製作了“文本異同校對軟件”、自動切詞及標注軟件、檢索系統軟件等功能軟件,並把它們組裝成一個完整的軟件系統,既可以單獨調試、修改,也可以整體升級。
四
本語料庫的設計主要遵循全面性、實用性、前沿性、開放性和自主性五大原則。全面性體現在收録的内容豐富且廣泛,儘量涉及不同領域、不同類型的中古語料;實用性體現在它可主要為中古漢語的學者專家提供翔實、可信的研究信息及材料,還可以供其他領域的研究者、愛好者及中小學生進行檢索、閲讀;前沿性體現在它包括了樹庫和平行語料庫這兩大前沿熱門内容,並採用先進技術,從而實現比較全面的功能;開放性體現在它可以與其他系統、軟件關聯和配合,並可由其他軟件對它進行修改、升級、組裝。自主性是指我們採用免費的自由軟件進行製作,功能軟件全部由我們自行設計,完全没有版權糾紛,其成果無論自用還是商用都没有問題。
語料庫建設的基本方法是先選擇善本,精心校勘,形成可信的文本;再進行人機結合的半自動切分和標注,並不斷進行機器的學習和標準的檢查,在快速高效的同時保證高品質;最後完成系統集成和功能調試。具體操作方法上,我們利用語言實驗室獨立的小型局域網與學校的教育網連接,使課題組成員無論在實驗室還是在家裏或外地,都可以進入服務器進行操作和討論,最大限度地提供自由、方便的製作環境,同時也對我們的成果在網上發佈的情況進行類比測試。
目前語料庫建設按以下幾步進行:(一)保存異文材料的校勘文本庫。與現有的平面型或層級型文本不同的是我們直接在資料庫裏進行操作,生成的是資料庫而不是單一的文本;古籍在流傳過程中往往有不同版本,形成一定數量的異文,這些異文材料是語言研究的重要内容和資源,現有的語料庫都只存留一家之説而丢棄了寶貴的異文材料,我們則把能收集到的異文全部録入,形成帶有詳細校勘信息的語料庫,還根據所用底本標注頁碼,供使用者查對。目前還没有這種保存異文的語料庫出現。(二)分階段進行切詞和標注。我們採用自行設計的自動切詞標注軟件進行機器切分和標注,然後由人工逐一核對、校正。我們的這一軟件具有被動學習功能,即我們把前一階段人工校對之後的結果導入軟件的詞表,使它“學習”,從而提高它在後續工作中的精度。我們在標注義項、語法信息之外,還與古代漢語研究者必用的工具書《漢語大詞典》進行對照,把義項不全、始見例晚見、詞條漏收、文字錯誤等情況輸入“備註”之中,供使用者參考,這一内容也是其他語料庫所不具備的。(三)人工翻譯,形成平行語料庫。把古代漢語翻譯成現代漢語,它將有利於古代漢語教學和古今漢語對比研究,還可以為古代漢語的機器翻譯等提供基礎和條件,這是我們的創新和探索。古、今漢語平行語料庫目前在國内和國外還没有見到相關成果。(四)對比核查和糾錯。我們每過一定的時間,就利用軟件對已經完成標注的語料進行自動核查,把所有人做的同一詞語的標注全部呈現出來,由軟件進行對比,差異大的再由人工核對,從而儘可能地避免不同人員形成不同的標準,做到標準統一,提高語料庫的品質。(五)集成、測試,並改進、完善。最終形成的檢索界面具有操作簡便、交互性强、功能完備等特點,可以進行定制輸出,比如由使用者對句子、書名、頁碼、出版信息等内容是否出現及出現順序進行設定,自動生成文字檔案。
本語料庫的重點是收録代表性强、研究價值大的中古語料,録入校勘信息,標注義項和語法層級,建成古代漢語的語法樹庫和古今漢語平行語料庫。因此具有以下特點:
(一)具有創新意識。庫容較大、内容比較全面的精加工中古語料庫目前尚没有。
(二)内容豐富而新穎。從語料而言,我們第一階段雖然不能録入所有中古語料(今後可以不斷擴充),但是我們把代表性强的重要語料收入並進行精細加工;從標注而言,異文校勘、與《漢語大詞典》對照等是我們的首創,古今漢語平行庫、語法樹庫、詞語義項等雖是借鑒於現代漢語語料庫,卻也是其他古代漢語語料庫所不具備的。[12]
(三)技術先進,産權自主。我們採用網站建設最常用的免費系統,包括Apache服務器、MySQL資料庫、Zend資料引擎及PHP腳本語言。MySQL是目前最快的大型專業資料庫之一,這套系統可以配合多種編程語言,支持XML,可以直接生成文本或網頁,既方便製作群體相互交换資料和傳輸資料,也方便成果在網上的發佈。結合自行設計的軟件,使成果能自由、獨立地使用。
(四)功能全面而便捷。參考、吸收現有語料庫的設計,提供更方便快捷而全面實用的功能。
(五)多種成果形式。(1)做成可以在網上公佈的資料庫;(2)根據需要製作電子版與紙質版的專書詞典、斷代詞典、斷代專類詞典;(3)可以刻成光碟供不方便上網的單機用户使用;(4)中古漢語自動分詞和標注軟件、中古漢語詞表可以成為其他語料庫的工具軟件和詞表;(5)中古漢語語料庫檢索系統的整個系統及所有子系統因為採用了開放式設計,可以應用於其他的資料庫系統。
當然,在建設過程中,我們也遇到了不少困難,主要是以下幾個方面:一是語料選擇的代表性與加工的精細程度,二是標注的準確率和進行的效率,三是標準的統一。不過,這些問題在實踐中可以逐步克服。
標記型
(本文發表於《燕山大學學報》哲社版,2011年第1期)
【注释】
[1]葉正道《記〈新編漢文典〉:一部探究漢語言概念範疇網絡的歷史和比較類書》,《漢學研究通訊》2004年。
[2]江蘇古籍出版社1990年版。
[3]吉林教育出版社1992年版。
[4]吉林教育出版社1994年版。
[5]中華書局1985年版。
[6]黄山書社1997年版。
[7]湖南師範大學出版社2004年版。
[8]黑龍江教育出版社1999年版。
[9]四川人民出版社1992年版。
[10]商務印書館1998年版。
[11]于安瀾著,暴拯群校改《漢魏六朝韻譜》,河南人民出版社1986年版。
[12]黄昌寧、李涓子著《語料庫語言學》,商務印書館2002年版。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。