Wordnet与CCD(中文概念辞书)的结构分析、比较和转换
论文摘要
Wordnet 是美国普林斯顿大学心理学实验室开发的在线字典查询系统,是受到有关人类的词汇记忆结构的心理学理论启发而开发的。
英文中的名词、动词、形容词被组织成"同义词集合"(synset), 每个同义词集合都代表一个潜在的"词义概念"(简称"概念",
concept)。 "同义词集合"之间由多种关系指针来连接。
中文概念辞书(Chinese Concept Dictionary, 简称CCD)是北京大学计算语言所借鉴WordNet的结构开发的辞书。其应用目标是实现基于内容的汉语信息处理,如:概念检索、信息提取、文本分类、自动文摘等等。
CCD与Wordnet目前存在两大方面的差别:结构方面和格式方面。
1. 结构方面:由于英语和汉语的语义结构存在极大的不同, 因此不可能简单的把Wordnet进行汉化。CCD虽沿用Wordnet的思想构建词与词之间的关系,
但是只能做到兼容, 并不完全相同。
2. 格式方面:Wordnet的数据库文件是文本文件, 辞典填写界面与数据库是分离的。 而CCD则是使用Foxpro的平台,
直接对数据库文件进行操作, CCD的数据库文件是dbf格式的文件。
我的毕业设计是对Wordnet和CCD数据文件的结构进行比较分析, 并协助CCD的结构设计。 具体工作主要包括以下方面:
1. 分析Wordnet的源文件, 总结出Wordnet数据库文件的存储格式。
2. 对Wordnet的格式进行分析, 将分析结果报告给CCD的主要设计者,并根据英语和汉语的区别, 为CCD定义合理的结构。发现Wordnet中没有的对于汉语语义描述又不可缺少的结构,
并将其筛选出来; 并且去掉Wordnet中对汉语语义信息无用的结构。
3. 比较Wordnet和CCD的结构和格式, 分析其兼容性
4. 编写程序将CCD格式的数据库文件转化为Wordnet格式的文件。
目录:
论文摘要 1
WORDNET与CCD(中文概念辞书)的结构比较和转换 2
第一章 WORDNET结构分析 3
§1.1 概念(concept)和同义词集合(synset) 3
§1.2 Synset之间的关系 4
§1.3 synset关系在名词、动词、形容词、副词文件中的具体说明 5
第二章 CCD简介 9
§2.1 开发与Wordnet兼容的辞典的必要性 9
§2.2 CCD不是单纯的Wordnet的中文版 9
第三章 CCD与WORDNET结构的简单比较 10
§3.1 Wordnet文件格式 10
§3.2 CCD的文件格式 15
第四章 从WORDNET转换到CCD (转换程序的工作原理) 18
§4.1数据结构 19
§4.2数据库 19
§4.3 流程图 21
§4.4 程序流程的详细说明 22
§4.5 特殊问题的解决方法 25
第五章 主要问题总结 28
附录一:Wordnet文件号及其意义, 和CCD中的文件号的对应 29
附录二:Wordnet中的关系指针, CCD中的关系指针 31
附录三:Wordnet中的Frame, CCD中的句子框架 32
附录四:转换程序数据结构说明 33
参考文献 36
感谢 36