正文

龙语瀚堂典籍数据库介绍

(2006-04-25 22:40:31) 下一个
龙语瀚堂典籍数据库介绍 随着现代计算机技术的发展和人们对传统文化的重视,在中国传统文化领域里利用信息技术对古籍数据库建设的工作得到高度重视和快速发展。众所周知,传统的二字节编码技术只能处理2万多汉字,而汉字在古籍中种类总量超过五万,这还没有包括甲骨文、金文、简帛等出土文献研究中使用的无法隶定的汉字。因此,现有的计算机技术在使部分古籍实现了数字化、网络化的同时却依然对大量的生僻字、古字束手无策。就像我们在探究汉字起源时所经常用到的《说文解字》、《康熙字典》等字书类、小学类古籍就是因为含有大量的生僻字,至今仍无法很好的实现通用的数字化版本,更有大量甲骨文、金文等历史文献,仍然处在手工化研究的阶段。研究人员在遇到电脑上无法检索或编辑的生僻字的时候,往往利用造字、利用符号表示、利用手工制作卡片、利用语言对字的组成的描述等手段来表述,从而给学术之间的交流和传播带来了极大的不便。 为了解决古汉语数字化处理的瓶颈问题,人们在编码和计算机技术的结合方面做了很多的工作。首先,大量的生僻字已经被置于四字节的编码区并确定了统一编码。其次,在微软的Office XP简体中文版中也预装了四字节的字库。《龙语瀚堂典籍数据库》处理系统正是在此基础上,解决了四字节实际应用中的一系列相关问题,从而使四字节技术真正得到开发和应用,也标志着计算机汉字处理开始进入到了四字节字符的领域。该系统在技术上的领先性和应用价值主要表现在以下几点: 一、具有在通用浏览器上自由编辑和浏览的功能。 建立在Unicode超大字符集之上的《龙语瀚堂典籍数据库》处理系统采用四字节编码技术使计算机可处理的文字种类数达到7万之多,即彻底解决这些四字节汉字在计算机平台上的录入、显示、编辑、检索、查询和管理。在所有已经装有Unicode超大字符集的计算机内,这些文字可以自如的在MS-Office上进行复制、粘贴和通过互联网进行广泛发布,从而结束了古籍研究手工抄写、图片替代、生硬造字的时代,也为研究者、古文字爱好者查阅、认知生僻字、罕用字提供了便捷的途径,使得整理所有古籍类图书信息化成为现实,对于中华文化的保存和发展具有极为重要的意义。 二、独有的四字节自然语言全文检索技术。 目前的互联网全文检索都是基于二字节字符系统的,但是如果需要建构真正意义上的中国知识库,那么基于二字节字符的现有技术就有其不可避免的缺陷。龙语瀚堂典籍数据库处理系统的四字节全文检索的核心技术,已经申请了国家专利,它在建构真正的中文数据库及检索查询方面具有绝对使用价值。 三、具有图书内容自动累加功能。 该项专利技术,不仅可以对《龙语瀚堂典籍数据库》中现有的古籍进行自动累加,也可以由用户自主添加各种图书资料。换句话说,使用者完全可以利用龙语瀚堂典籍数据库系统建立起自己专署的电子图书馆,查阅电子图书馆中的任何文字信息,最终解决翻纸版书查出处过程繁琐的问题。这项功能无论是对于历史、博物馆界、图书馆界、还是对于各种的研究机构甚或个体的研究者,都可以通过它来建立一个与自己研究领域或方向相关的专业数据库。比如说出版社,完全可以利用它将历年出版的书籍整理成库,充分发挥其资源优势,在弹指间查出某篇文章甚至某个人某句话在各本书中的出处、前后语境等,一扫编辑人员查出处找源头,或者搜集海量选题资料的困难。 建立在先进技术基础上的龙语瀚堂典籍数据库系统是一个专门基于四字节汉字处理的古籍处理系统。其本身自带了汉字研究所必须用到的《说文解字》、《康熙字典》等字书类图书。目前已经建成或正在建设的数据库包括“字书类数据库”、“殷周金文库”、“中国古印库”、“金文文献库”、“古籍期刊库”、“中国简帛库”、“甲骨文库”等,这些内容都是因为在此之前由于四字节处理技术瓶颈未被突破而无法在计算机平台上实现数字化的内容。除此之外还有大量的碑文、金石拓片、石刻甚至包括了蒙文、藏文、梵文等其他民族语言和文化的整理也亟待解决。 悠久的历史和灿烂的文明使中国拥有让全世界惊叹的浩如烟海的古籍文献和出土文物,对它们的保存和研究是我们这代人的责任和义务。在信息化时代,这一切必须依靠现代的计算机技术,过去由于技术瓶颈问题使得大量的文献资料无法在计算机平台上进行整理,而如今龙语瀚堂典籍数据库系统则彻底的解决了这些问题。它的专利种类包括了四字节全文检索技术、四字节网络检索的网站构建方法、四字节汉字编辑工具、图书内容自动累加等,这些技术将为图书馆、博物馆、档案馆、出版社、研究所等专业机构的数字化建设提供坚实的平台,使中国古代经书典籍特别是古籍、善本等文献资料以电子文件的形式进行永久保存,实现真正意义上的传播和推广。我们相信基于龙语瀚堂典籍数据库系统的技术,中国历史文化的数字化整理必将步入一个全新的领域。 字书类数据库 字书类数据库包括了《说文解字》(中华书局影本清代孙星衍大徐本刻本整理)、《康熙字典》(中华书局影本同文书局原版整理)、《尔雅音图》(清代嘉庆艺学轩宋刻本)等研究古籍的基础性工具书。也包括《汗简》等古籍。 殷周金文库 以张亚初的《殷周金文集成释文》为基础,同时收录了《金文集成》未收器(81年以前)、《伪作青铜器表》等文献。对每件青铜器,用户可以看到包括铭文、释文、拓片、铭文临摹、照片或者线图、注释等内容。 中国古钱、古印库 收录了包括战国印章、汉印章,战国古钱的释文和影像。数据总量达到近万条。 考古、文字学书目库 包括考古学、历史学、文字学等人文学科的书目与篇目资料。包含书名、篇目、作者、出处等信息。 简帛库 基于互联网的所有关于简帛研究的文章集成,提供含四字节汉字的全文检索。 台湾国学报告数据库 包括考古学、历史学、文字学等人文学科的台湾政府研究报告与学术论文。 中国音韵库 包括《集韵》、《广韵》、《五音集韵》等传统韵书,以及音韵学领域学术论文和罕见古韵书。也包括《古文四声韵》等古籍。 小学类数据库 小学类数据库包括了段玉裁的《说文解字段注》、王筠的《说文句读》、桂馥的《说文解字义证》、朱骏声的《说文通训定声》、丁福保的《说文解字诂林》、徐锴的《说文解字系传》。是研究《说文解字》系列的专业数据库。 金文文献库 包括中国近现代金文研究的历史文献和学术专著。 古籍核心期刊库 包括古籍研究相关的《考古》、《文献》等重点期刊杂志。 甲骨文库 包括中国近现代甲骨文研究的历史文献和学术专著。
[ 打印 ]
[ 编辑 ]
[ 删除 ]
阅读 ()评论 (0)
评论
博主已隐藏评论
博主已关闭评论