Life 版 (精华区)
发信人: pluto (下雨天), 信区: other
标 题: 机器翻译中的歧义与消歧
发信站: 听涛站 (2001年09月06日12:37:10 星期四), 站内信件
1. 歧义概说
歧义(ambiguity)的处理是机器翻译的难点,其本质是语言
的形式和意义之间的矛盾,即同一形式与不同意义相联系。
歧义的大量存在是自然语言区别于形式语言的一个重要特征,
对歧义处理的研究往往是机器翻译理论与方法的生长点。 自
然语言中最常见的两种歧义分别产生与词汇层与句法层, 形
成词汇歧义(lexical ambiguity)和结构歧义(structural
ambiguity)。词汇歧义即所谓的同形异义,其原因通常有一
词多义(polysemy)、兼类、或是曲折(inflection), 举
例说明:
一词多义:seal(海象;印章);
兼类:book(n. 书;v. 预订);
曲折:cleaner(n. 清洁器;comp. adj. 更干净)。
结构歧义反映在由单词组成的各种结构上,属句法层。 自然
语言处理中的一个经典例子是“I saw a girl with a telescope”。
“with a telescope”是做“a girl”的定语呢,还是做“saw”
的状语,这在句法上是无法判定的,从而形成歧义。
2. 英语中的三种结构歧义
英语中的结构歧义,主要有以下三种:
a. 在“VP+NP1+Prep+NP2”的结构中,介词词组PP(Prep+NP2)
既可作名词词组NP1的定语,又可作动词词组VP的状语, 从而
产生歧义。如前面提到的那个例子:I saw a girl with a
telescope.
b. 当若干个词与and连用时,由于and的管辖范围不同,而影
响到层次结构的不同。如old men and women的结构既可以是
((old men) and women),也可以是(old( men and women));
可以解释为年老的男人和所有的女人,也可以解释为年老的男
人和年老的女人。
c. 当两个或两个以上的名词组成词组时,对整个名词词组的
含义往往可以做不同的解释,从而产生歧义。例如widget
hammer,即可理解为widget used as hammer(作锤子用的小机
械),又可理解为hammer for hitting widget(锤击小机械的
锤子)。
3. 以上三种结构歧义在汉语中的表现
对结构歧义在两种语言中的对比,是在机器翻译中进行消歧的前
提。举个例子说,如果在两种语言中,同一句法形式有着完全相
同的歧义表现,我们就不妨简单地使用“以歧义对歧义”的方式
来进行消歧。
英语中的第一种结构歧义,在汉语中并不多见。这是因为汉语的
介词词组作定语时,一般放在名词词组之前,且常加“的”,所
以不易混淆为作状语的介词词组。
但是,在汉语的介词词组中,容易产生因介词管辖范围不同而导
致的歧义。如:关于教师的小说,即可分析为“关于((教师的)小说)”,
又可分析为“(关于(教师的))小说”。
英语中的第二种结构歧义,即由于连词and的管辖范围不同而产
生的歧义,在汉语中也普遍存在,最常见的是在“的”字和连词
“和”字用在一起的时候,如:
把((重要的书籍)和手稿)带走了
把(重要的(书籍和手稿))带走了
英语中的第三种结构歧义,即由两个或两个以上的名词组成名词
词组而产生的歧义,在汉语中也很普遍。如“女子理发店”,既
可指专门为女子理发的理发店,也可以指理发师全部是女性的理
发店。
4. 现实歧义与潜在歧义
从结构歧义的许多例子中,我们可以提取出一些“歧义格式”,
如以上提到的“VP+NP1+Prep+NP2”等, 这些歧义格式实际上反
映了歧义所产生的可能环境。但是,歧义格式反映的只是一种
“潜在歧义”,也就是说,在一个现实的句子中,具备了歧义格
式的一个结构并不一定就具有歧义,是否会产生歧义还要看具体
代入歧义格式中的范畴符号的单词。例如,同样是“Prep+N1+的+NP2”
这样一个结构,“对于老师的意见”是有歧义的,而“对于罪犯
的判词”则一般不会产生歧义。从这一点也可以看出,结构歧义
虽然产生于句法层,但对结构歧义的处理是不可能仅依靠句法形
式来完成的,机器翻译的实践也反映出更加重视词典和实例的倾
向。
4. 消歧策略
消歧(disambiguation)是机器翻译中对原语进行分析的重要环
节。只有通过消歧,才能给出一个句子唯一正确的句法结构,也
才能确保对语义的正确理解。对歧义的处理,本质上要应用语言
中的各种约束关系,包括句法与语义的约束关系。就通过句法分
析来实现消歧来看,自从MIT的Marcus提出确定性算法以来, 确
定性算法(determinism)压倒不确定性算法(indeterminism)
成为自然语言处理的主流,但是实际上两种方法各有长短。确定
性算法反映的是自底向上(数据驱动)的分析策略,效率高,一
般都能导出分析结果但对规则刻划的要求较高,容易导出错误的
结果。不确定性算法反映的是自顶向下(预期驱动)的分析策略,
回溯多,效率底,且可能分析不出结果。此外,在理论上,国外
还有人提出了向前看(lookahead)的超前分析策略、 启发式分
析策略(heuristics)、削移剖析算法(shift-reduce parsing
algorithm)、线图剖析算法(chart parser)等消歧方法。 在
实践中,统计的与实例的方法也得到了广泛的应用。
--
原谅我这一生不羁放纵爱自由
也会怕有一天会跌倒
被弃了理想谁人都可以
那会怕有一天只你共我
※ 来源:·听涛站 tingtao.dhs.org·[FROM: 匿名天使的家]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:0.997毫秒