汉语介词短语的自动识别
背景:
| 日期:2007-11-19 | 作者:干俊伟 | 编辑: | 点击次数:15 |
| 销售价格:150元 | 论文编号:lw200711191056065662 | 论文字数:29510 | |
| 论文属性:硕士毕业论文 | 论文地区: | 论文语种:中文 | |
| 说明:支付后,我们将在24小时内发到您的邮箱,请支付后通知我们发送论文,谢谢。 |
收藏:del.icio.us google书签 雅虎搜藏 百度搜藏 新浪vivi 和讯网摘poco网摘天极网摘qq书签饭否mister-wong365网摘LiveDiggDiglog
汉语介词短语的自动识别
摘 要
介词短语是汉语中一种重要的短语类型。介词短语识别可以缩小句子中心动词的选择范围;可以简化句子结构,降低后续句法分析的难度;在基于模板的翻译中,它还能为模板匹配提供方便。
由于自然语言的灵活性和复杂性,使得句法分析成为一项十分艰难的工作,因此,浅层句法分析成了当前的研究热点。浅层句法分析的优点是可以识别出确定性高的部分分析结果,减少句法分析中的歧义,从而降低句法分析的难度。尽管目前的浅层句法分析以组块识别为主,但是由于介词短语本身的复杂性和特殊性,所以依然有必要如前人单独讨论名词短语识别一样,分析和探讨介词短语的识别问题。
语言学研究表明,介词短语的内部构成比较复杂,但有着显著的边界特征和上下文特征。本文继承了Church提出的把BaseNP识别看作词性标注同构问题的思想,利用这些特征,构造了一个有效的汉语介词短语识别模型,尝试在浅层句法分析这个层级识别介词短语。即,在分词和词性标注的基础上,把介词短语作为一个整体识别出来,而不对其内部构成作分析。模型分为两部分:(1)根据介词和介词短语右边界经常出现固定搭配的特点,构造了两个搭配模板,从训练语料中自动提取可信搭配关系,并用这些搭配关系对介词短语进行初步识别。(2)考虑到介词对介词短语右边界的影响,把介词作为一元加入到Church提出的基于词性的二元边界统计模型中,构成了三元模型。又根据介词短语的上下文特征,加入了规则方法。用基于词性的三元边界统计模型和规则相结合的方法识别第一步无法处理的介词短语。
对含有7324个介词短语的语料作交叉测试,精确率达到88.29%。实验结果表明,在浅层句法分析中识别介词短语是可行的。
本论文由无忧论文网www.51lunwen.com整理提供

支付后,我们将在24小时内发到您的邮箱,请支付后通知我们发送论文,谢谢。
houqinzhichi@qq.com QQ:951300497 购买论文,汇款确认信邮箱。