Life 版 (精华区)
发信人: pluto (下雨天), 信区: other
标 题: 面向计算机的语言研究
发信站: 听涛站 (2001年09月06日12:34:52 星期四), 站内信件
面向计算机的语言研究
国家语委语言文字应用研究所 冯志伟
传统的语言研究是为语言教学、文献整理、社会历史研究服务的。这样的研究
完全是
面向人的,这样的研究搞了近两千年,已经取得了可观的成绩。
电子计算机出现以来,人与计算机之间要进行信息的传输和交流,因此,除了
继续进
行面向人的语言研究之外,还要开展面向计算机的语言研究。学者们开始采用计算
机技术
来研究和处理自然语言,在计算机上建立各种自然语言处理系统。
面向计算机的语言的研究是本世纪五十年代才开始的,四十年来,这项研究取
得了长
足的进展,成为了一门重要的新兴学科--自然语言处理。
计算机对自然语言的研究和处理,一般应经过如下三个方面的过程:
第一,把需要研究的问题在语言学上加以形式化(linguistic formalism),
使之能
以一定的数学形式,严密而规整地表示出来;
第二,把这种严密而规整的数学形式表示为算法(algorithm),使之在计算
上形式化
(computational formalism);
第三,根据算法编写计算机程序,使之在计算机上加以实现
(computer implementation)。
因此,为了研究自然语言处理,我们不仅要有语言学方面的知识,而且,还要
有数学
和计算机科学方面的知识,这样自然语言处理就成为了一门界乎于语言学、数学和
计算机
科学之间的边缘性的交叉学科,它同时涉及到文科、理科和工科三大领域。
面向计算机的语言研究首先是从机器翻译系统的研究开始的。1946 年电子计
算机刚
一问世,人们在把计算机广泛地应用于数值运算的同时,也想到了利用计算机把一
种或几
种语言翻译成另外一种语言或另外几种语言。从 50 年代初期到 60 年代中期,机
器翻译
一直是自然语言处理系统研究的中心课题,当时采用的主要是“词对词”翻译方式
,这种
不是建立在对自然语言理解的基础上的简单技术,没有得到预期的翻译效果。60
年代中
期,人们开始转入对自然语言的语法、语义和语用等基本问题的研究,并尝试着让
计算机
来理解自然语言。许多学者认为,断定计算机是否理解了自然语言的最直观的方法
,就是
让人们同计算机对话,如果计算机对人用自然语言提出的问题能作出回答,就证明
计算机
已经理解了自然语言,这样,就出现了“人机对话”系统(或“自然语言理解”系
统)的
研究。自然语言处理的理论和方法也就在这些具体的研究中逐渐形成、成熟并完善
起来。
机器翻译系统的研究是面向计算机语言研究的一个历史悠久的部门。
关于用机器来进行语言翻译的想法,远在古希腊时代就有人提出过了。当时,
人们曾
经试图设计出一种理想化的语言来代替种类繁多形式各异的自然语言,以利于在不
同民族
的人们之间进行思想交流。曾提出过不少方案,其中一些方案就已经考虑到了如何
用机械
手段来分析语言的问题。
本世纪三十年代之初,法国科学家阿尔楚尼(G.B. Artsouni)提出了用机器
来进行语
言翻译的想法。
1933年,苏联发明家特洛扬斯基(П.П.ТРОЯНСКИЙ)设计了用机
械方法
把一种语言翻译为另一种语言的机器,并在同年9月5日登记了他的发明。但是,
由于三
十年代的技术水平还很低,特洛扬斯基的翻译机没有制成。
机器翻译系统的研制是从四十年代末期开始的。可以分为草创期、复苏期、发
展期三
个时期。
(1)草创期(1954年-1970年):
1946年,美国宾夕法尼亚大学的埃克特(J. P. Eckert)和莫希莱(J.W.
Mauchly)
设计并制造出了世界上第一台电子计算机ENIAC,电子计算机惊人的运算速度,启
示着人
们考虑翻译技术的革新问题。因此,在电子计算机问世的同一年,英国工程师布斯
(A.D.Booth)和美国工程师韦弗(W.Weaver)在讨论电子计算机的应用范围时,
就提出
了利用计算机进行语言自动翻译的想法。1949年,韦弗发表了一份以《翻译》为题
的备忘
录,正式提出了机器翻译问题。在这份备忘录中,他除了提出各种语言都有许多共
同的特
征这一论点之外,还有两点值得我们注意:
第一,他认为翻译类似于解读密码的过程。他说:“当我阅读一篇用俄语写的
文章的
时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符
号编了
码而已,当我在阅读时,我是在进行解码。”
第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语
言B时,
就意味着,从语言A出发,经过某一“通用语言”(Universal Language)或“中
间语言”
(Interlingua),然后转换为语言B,这种“通用语言”或“中间语言”,可以假
定是全
人类共同的。
可以看出,韦弗把机器翻译仅仅看成一种机械的解读密码的过程,他远远没有
看到机
器翻译在词法分析、句法分析以及语义分析等方面的复杂性。
由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来
。1954
年,美国乔治敦大学在国际商用机器公司(IBM公司)的协同下,用IBM-701计算机
,进行
了世界上第一次机器翻译试验,把几个简单的俄语句子翻译成英语,接着,苏联、
英国、
日本也进行了机器翻译试验,机器翻译出现热潮。
早期机器翻译系统的研制受到韦弗的上述思想的很大影响,许多机器翻译研究
者都把
机器翻译的过程与解读密码的过程相类比,试图通过查询词典的方法来实现词对词
的机器
翻译,因而译文的可读性很差,难于付诸实用。
1964年,美国科学院成立语言自动处理谘询委员会(Automatic Language
Processing
Advisory Committee,简称ALPAC委员会),调查机器翻译的研究情况,并于1966
年11月公
布了一个题为《语言与机器》的报告,简称ALPAC报告,对机器翻译采取否定的态
度。报告
宣称:“在目前给机器翻译以大力支持还没有多少理由”;报告还指出,机器翻译
研究遇
到了难以克服的“语义障碍”(semantic barrier)。
在ALPAC报告的影响下,许多国家的机器翻译研究走向低潮,许多已经建立起
来的机
器翻译研究单位遇到了行政上和经费上的困难,在世界范围内,机器翻译的热潮突
然消失
了,出现了空前萧条的局面。
不过,尽管在萧条时期,法国、日本、加拿大等国,仍然坚持着机器翻译研究
,于
是,在七十年代初期,机器翻译又出现了复苏。
--
“这时登上了汗位。。。。。。” Азер,?~ 730
※ 来源:·BBS 水木清华站 bbs.net.tsinghua.edu.cn·[FROM: 162.105.184.
33]
发信人: cinason (琴生), 信区: Linguistics
标 题: 面向计算机的语言研究(二)
发信站: BBS 水木清华站 (Fri Mar 19 16:12:55 1999)
面向计算机的语言研究(二)
国家语委 冯志伟
(2)复苏期(1970-1976年):
在这个复苏期,研究者们普遍认识到,原语和译语两种语言的差异,不仅只
表现在词汇的不同上,而且,还表现在句法结构的不同上,为了得到可读性强的
译文,必须在自动句法分析上多下功夫。
早在1957年,美国学者英格维(V.Yingve)在《句法翻译的框架》
(Framework for syntactic translation)一文中就指出,一个好的机器翻译系
统,应该分别地对原语和译语都作出恰如其分的描写,这样的描写应该互不影响,
相对独立。英格维主张,机器翻译可以分为三个阶段来进行。
第一阶段:用代码化的结构标志来表示原语文句的结构;
第二阶段:把原语的结构标志转换为译语的结构标志;
第三阶段:构成译语的输出文句。
第一阶段只涉及原语,不受译语的影响,第三阶段只涉及译语,不受原语的
影响,只是在第二阶段才涉及到原语和译语二者。在第一阶段,除了作原语的词
法分析之外,还要进行原语的句法分析,才能把原语文句的结构表示为代码化的
结构标志。在第二阶段,除了进行原语和译语的词汇转换之外,还要进行原语和
译语的结构转换,才能把原语的结构标志变成译语的结构标志。在第三阶段,除
了作译语的词法生成之外,还要作译语的句法生成,才能正确地输出译文的文句
。
英格维的这些主张,在这个时期广为传播,并被机器翻译系统的开发人员普
遍接受,因此,这个时期的机器翻译系统几乎都把句法分析放在第一位,并且在
句法分析方面取得了很大的成绩。
这个时期机器翻译的另一个特点是语法(grammar)与算法(algorithm)分
开。
早在1957年,英格维就提出了把语法与“机制”(mechanism)分开的思
想。英格维所说的“机制”,实质上就是算法。所谓语法与算法分开,就是要把
语言分析和程序设计分开,程序设计工作者提出规则描述的方法,而语言学工作
者使用这种方法来描述语言的规则。语法和算法分开,是机器翻译技术的一大进
步,它非常有利于程序设计工作者与语言工作者的分工合作。
这个复苏期的机器翻译系统的典型代表是法国格勒诺布理科医科大学自动翻
译中心的机器翻译系统。这个自动翻译中心的主任沃古瓦(B.Vouquois)教授明
确地提出,一个完整的机器翻译过程可以分为如下六个步骤:
(1)原语词法分析,(2)原语句法分析,(3)原语译语词汇转换,(4)原语译语
结构转换,(5)译语句法生成,(6)译语词法生成。
其中,第一、第二步只与原语有关,第五、第六步只与译语有关,只有第三
、第四步牵涉到原语和译语二者。这就是机器翻译中的“独立分析-独立生成-
相关转换”的方法。他们用这种研制的俄法机器翻译系统,已经接近实用水平。
他们还根据语法与算法分开的思想,设计了一套机器翻译软件ARIANE-78,这
个软件分为ATEF,ROBRA,TRANSF和SYGMOR 四个部分。语言工作者可以利用这个
软件来描述自然语言的各种规则。其中,ATEF是一个非确定性的有限状态转换器,
用于原语词法分析,它的程序接收原语文句作为输入,并提供出该文句中每个词
的形态解释作为输出;ROBRA是一个树型转换器,它的程序接收词法分析的结果
作为输入,借助语法规则对此进行运算,输出能表示文句结构的树形图;ROBRA
还可以按同样的方式实现结构转换和句法生成;TRANSF可借助与双语词典实现词
汇转换;SYGMOR是一个确定性的树-链转换器,它接收译语句法生成的结果作为
输入,并以字符链的形式提供出
译文。
通过大量的科学实验的实践,机器翻译的研究者们认识到,机器翻译中必须
保持原语和译语在语义上的一致,一个好的机器翻译系统应该把原语的语义准确
无误地在译语中表现出来。这样,语义分析在机器翻译中越来越受到重视。
美国斯坦福大学威尔克斯(Y.A. Wilks)提出了“优选语义学”
(Preference Semantics),并在此基础上设计了英法机器翻译系统,这个系统
特别强调在原语和译语生成阶段,都要把语义问题放在第一位,英语的输入文句
首先被转换成某种一般化的通用的语义表示,然后再由这种语义表示生成法语译
文输出。由于这个系统的语义表示方法比较细致,能够解决仅用句法分析方法难
于解决的歧义、代词所指等困难问题,译文质量较高。
(3)繁荣期(1976-现在):
繁荣期的最重要的特点,是机器翻译研究走向了实用化,出现了一大批实用
化的机器翻译系统,机器翻译产品开始进入市场,变成了商品,由机器翻译系统
的实用化引起了机器翻译系统的商品化。
机器翻译的繁荣期是以1976年加拿大蒙特利尔大学与加拿大联邦政府翻
译局联合开发的实用性机器翻译系统TAUM-METEO正式提供天气预报服务为标志
的。这个机器翻译系统投入实用之后,每小时可以翻译6万-30万个词,每天
可以翻译1500-2000篇天气预报的资料,并能够通过电视、报纸立即公
布。TAUM-METEO系统是机器翻译发展史上一个里程碑,它标志着机器翻译由复
苏走向了繁荣。
日本富士通公司开发的ATLAS-I(Automatic Translation System-I)系统
是一个建立在大型计算机上的英日机器翻译系统,该系统以句法分析为中心,可
进行科学技术文章的翻译,在FACOM M380计算机上,每小时可翻译60000词。
日本富士通公司开发的ATLAS-II机器翻译系统也建立在大型计算
机上,但其翻译方式与ATLAS-I不同。ATLAS-I以句法分析为
中心,而ATLAS-II则以语义分析为中心。该系统目前用于日英机器翻
译。
此外,日本的实用化机器翻译系统还有:日立公司开发的HICATS(Hit
achi Computer Aided Translation System)英日、日英机器翻译系统,日本电
气公司开发的PIVOT英日、日英机器翻译系统,三菱电机公司开发的MELTRAN日英
机器翻译系统,冲电气公司开发的PENSEE日英机器翻译系统,理光公司开发的
RMT
英日机器翻译系统,三洋电气公司开发的SWP-7800日英机器翻译系统,东芝公司
开发的TAURAS英日机器翻译系统,日本布拉维斯公司(BRAVICE INTERNATIONAL)
研制的BRAVICE PAK 11/73日英机器翻译系统等。
欧美除TAUM-METEO机器翻译系统之外,还陆续推出了一批实用化的机器翻译
系统。
法国纺织研究所的TITUS-IV系统,可以进行英、德、法、西班牙等四种语言
的互译,每种语言都有一部14000个词的机器词典,每秒钟可译240个词,主要用
于翻译纺织技术方面的文献。
美国在乔治敦大学机器翻译系统的基础上,进一步开发了大型的机器翻译系
统SYSTRAN,已提供试用。例如,提供给美国空军的SYSTRAN系统,词典有16万
8千个词干形式和13万6千个词组,可进行俄英机器翻译,每小时可翻译15
万词;提供给美国拉特塞克(Latsec)公司的SYSTRAN系统,可进行俄英、英俄、
德英、汉法、汉英机器翻译,每小时可译30万-35万个词。SYSTRAN是目前
应用最为广泛、所开发的语种最为丰富的一个实用化机器翻译系统。
美国罗各斯(LOGOS)公司开发的LOGOS-III机器翻译系统,可进行英语-
越南语机器翻译和英俄机器翻译,词典有10万个词。
美国国家航空和航天的NASA系统,可进行俄英和英俄机器翻译。
美国魏德纳(WEIDNER)通讯公司WCC的WEIDNER机器翻译系统,可进行英语
与法语、英语与德语、英语与西班牙语、英语与葡萄牙语之间的双向机器翻译,
并可进行英语-阿拉伯语的单向机器翻译。
设在华盛顿的泛美卫生组织研制成的PAHO系统,可进行西班牙语-英语的机
器翻译。从1980年以来,已经翻译了100多万词的资料。近来,他们又推
出了ENGSPAN和SPANAM两个实用化系统。
德国西门子(SIMENS)公司与美国德克萨斯大学(TEXAS University)合作,
研制成METAL系统,可进行德英机器翻译,词典包含1万个词条。
德国萨尔大学(Universitat des Saarlandes)研制成SUSY(Saarbrucken
Automatic Translation System)系统,以德语为中介,可以进行俄语、英语、
法语、世界语的机器翻译。比如,由英语译成法语,首先要由英语译成德语,再
由德语译成法语,每小时可译15000词。
此外,还有一些大规模的机器翻译系统正在研制之中,例如,EUROTRA计划、
Mu系统、ODA计划、DLT系统等。
1978年,欧洲共同体在继续使用和发展SYSTRAN系统的同时,提出了欧共
体内七种语言(后来变为九种)之间进行任何一方向翻译的多语机器翻译计划
EUROTRA,此计划于1982年正式实施,前后延续了十多年,至今尚未达到预
期的结果。
日本在提出第五代计算机计划的同时,于1982年至1986年由政府开
展了英日、日英机器翻译Mu系统的研制,接着,又由通产省出面,组织与亚洲四
个邻国(中国、印度尼西亚、马来西亚、泰国)合作研究日语、汉语、印度尼西
亚语、马来语、泰语五种语言互译的多语言机器翻译ODA计划,原定于1987
年至1992年完成,现在延长至1995年初完成。
欧洲共同体在1982年开始实施EUROTRA计划的同时,还支持了多语言机器
翻译系统DLT的可行性研究。从1984年开始,改由荷兰政府和荷兰的一家软件
公司BSO各出资一半对此系统的研制进行长期的支持,从1984年到1992年
每年投资均在100万美元左右。DLT系统原打算九十年代中期开始实用化,可是
至今尚未得到满意的结果。
--
“这时登上了汗位。。。。。。” Азер,?~ 730
※ 来源:·BBS 水木清华站 bbs.net.tsinghua.edu.cn·[FROM: 162.105.184.
33]
发信人: cinason (琴生), 信区: Linguistics
标 题: 面向计算机的语言研究(三)
发信站: BBS 水木清华站 (Fri Mar 19 16:14:26 1999)
面向计算机的语言研究(三)
国家语委 冯志伟
我国是继美国、苏联、英国之后,世界上第四个开展机器翻译研究工作的国家。当
今
在机器翻译方面居于先进水平的日本,是在1958年才开始进行机器翻译的,起
步比我
国为晚。
与国外机器翻译的发展情况相比较,我国机器翻译除了有草创期、复苏期和繁荣期
之
外,由于文化大革命的影响,还有一个非常特别的时期——停滞期,而且,由于我
国机器
翻译在理论上和方法上以及设备上的底子都很薄,我国机器翻译的每一个时期又都
比国外
机器翻译的同样时期稍微滞后。这是我国机器翻译发展的特点。
(1)草创期(1956-1966年)
在这个时期,我国学者对机器翻译进行了初步的探索和试验。1956年,国家便
把
机器翻译研究列入了我国科学工作的发展规划,成为其中的一个课题。课题的名称
是:
“机器翻译、自然语言翻译规则的建立和自然语言的数学理论”。1957,中国
科学院
语言研究所与计算技术研究所合作,开展俄汉机器翻译试验,翻译了9个不同类型
的、较
为复杂的句子。在这个草创时期,北京外国语学院、北京俄语学院、广州华南工学
院、哈
尔滨工业大学也分别成立了机器翻译研究组,开展俄汉或英汉机器翻译的试验。
(2)停滞期(1966-1975年)
在这个时期,除了极少数的机器翻译研究者在极端恶劣的条件下继续进行理论探索
之
外,没有进行任何的机器翻译研究和试验。
(3)复苏期(1975-1987年)
在这个时期,我国机器翻译研究重振旗鼓,开始复苏。
1975年11月,在中国科学技术情报研究所设立了一个由情报所、语言所和计
算
所等单位的工作人员组成的机器翻译协作研究组,以冶金题录5000条为试验材
料,制
定英汉机器翻译方案并上机试验。1978年5月,在计算所111机上进行抽样
试验,
抽样20条,达到了预期的效果。在这个时期,我国学者还开展了法汉、德汉、日
汉以及
汉-法/英/日/俄/德多语言机器翻译试验,取得了一定的成效。
(4)繁荣期(1987年-现在)
这个时期是以“星译1号”机器翻译系统的问世为标志的。继“译星1号”之后,
一
系列的实用化商品化的机器翻译系统如雨后春笋般地推向市场,我国的机器翻译迈
向了实
用化和商品化的阶段。
面向计算机的语言研究的另一个领域是自然语言理解系统的研制。
自然语言理解系统研究如何让计算机理解和运用人类的自然语言,使得计算机懂得
自
然语言的含义,并对人给计算机提出的问题,通过对话的方式,用自然语言进行回
答。自
然语言理解系统可以用作专家系统、知识工程、情报检索、办公室自动化的自然语
言人机
接口,有很大的实用价值。
1966年美国公布了否定机器翻译的ALPAC报告之后,处于草创时期的机器
翻
译研究转入低潮,于是,同自然语言的计算机处理有关的研究,逐渐转向了自然语
言理
解。学者们采用了各种精巧的方法,尝试着建立计算机系统,让计算机理解自然语
言,而
判断计算机是否理解了自然语言的最直观的方法,就是人同计算机对话,根据计算
机对于
人们用自然语言所提的问题的回答,就可以看出计算机是否理解了自然语言。这一
方面的
研究不久便取得了令人鼓舞的进展。因此,当六十年代末期机器翻译困难重重、一
筹莫展
的时候,自然语言理解的研究却左右逢源、后来居上,而当机器翻译东山再起、重
振旗鼓
而进入复苏期的时候,自然语言理解却已获得了累累的硕果。
自然语言理解系统的发展可以分为第一代系统和第二代系统两个阶段。第一代系统
建
立在对词类和词序分析的基础之上,分析中经常使用统计方法;第二代系统则开始
引进语
义甚至语用和语境的因素,几乎完全抛开了统计技术。
第一代自然语言理解系统又可分为四种类型:
(1)特殊格式系统:早期的自然语言理解系统大多数是特殊格式系统,根据人机
对
话内容的特点,采用特殊的格式来进行人机对话。1963年,林德赛(R.
Lindsay)在
美国卡内基技术学院用IPL-V表处理语言设计了SAD-SAM系统,就采用了特
殊格式
来进行关于亲属关系方面的人机对话,系统内建立了一个关于亲属关系的数据库,
可接收
关于亲属关系方面的问题的英语句子提问,用英语作出回答。1968年,波布洛
(D.Bobrow)在美国麻省理工学院设计了STUDENT系统,这个系统把高中代数应用
题中的英
语句子归纳为一些基本模式,由计算机来理解这些应用题中的英语句子,列出方程
求解,
并给出答案。六十年代初期,格林(B.Green)在美国林肯实验室建立了BASE
BALL
系统,也使用IPL-VV表处理语言,系统的数据库中存贮了关于美国1959
年联邦
棒球赛得分记录的数据,可回答有关棒球赛的一些问题。该系统的句法分析能力较
差,输
入句子十分简单,没有连接词,也没有比较级形式的形容词和副词,主要靠一部机
器词典
来进行单词的识别,使用了14个词类范畴,所有的问题都采用一种特殊的规范表
达式回
答。
(2)以文本为基础的系统:某些研究者不满意在特殊格式系统中的种种格式限制
,
因为就一个专门领域来说,最方便的还是使用不受特殊格式结构限制的系统来进行
人机对
话,这就出现了以文本为基础的系统,1966年西蒙(R.F.Simmons)、布尔格
(J.F.
Burger)和龙格(R.E. Long)设计的PROTOSYNTHEX-I系统,就是
以文本
信息的存贮和检索方式工作的。
(3)有限逻辑系统:有限逻辑系统进一步改进了以文本为基础的系统。在这种系
统
中,自然语言的句子以某种更加形式化的记号来替代,这些记号自成一个有限逻辑
系统,
可以进行某些推理。1968年,拉菲尔(B.Raphael)在美国麻省理工学院用L
IPSP
语言建立了SIR系统,针对英语提出了24个匹配模式,把输入的英语句子与这
些模式
相匹配,从而识别输入句子的结构,在从存贮知识的数据库到回答问题的过程中,
可以处
理人们对话中常用的一些概念,如集合的包含关系、空间关系等等,并可进行简单
逻辑推
理,机器并能在对话中进行学习,记住已学过的知识,从事一些初步的智能活动。
1965年,斯莱格勒(J.R. Slagle)建立了DEDUCOM系统,可在情报检索中进行
演绎推
理。1966年,桑普逊(F.B.Thompson)建立了DEACON系统,通过英语来管理一
个虚构
的军用数据库,设计中使用了环结构和近似英语的概念来进行推理。1968年,
凯罗格
(C.Kellog)在IBM360/67计算机上,建立了CCONVERSE系统,
该系统
能根据关于美国120个城市的1000个事实的文件来进行推理。
(4)一般演绎系统:一般演绎系统使用某些标准数学符号(如谓词演算符号)来
表
达信息。逻辑学家们在定理证明工作上取得的全部成就,就可以用来作为建立有效
的演绎
系统的根据,从而能够把任何一个问题用定理证明的方式表达出来,并实际地演绎
出所需
要的信息,用自然语言作出回答。一般演绎系统可以表达那些在有限逻辑系统中不
容易表
达出来的复杂信息,从而进一步提高了自然语言理解系统的能力。1968-19
69
年,格林和拉菲尔建立的的QA2,QA3系统,采用谓词演算的方式和格式化的
数据
(formated data)来进行演绎推理,解答问题,并用英语作出回答,这是一般演
绎系统
的典型代表。
1970年以来,出现了一定数量的第二代自然语言理解系统,这些系统绝大多数
是
程序演绎系统,大量地进行语义、语境以至语用的分析。其中比较有名的系统是
LUNAR系统、SHRDLU系统、MARGIE系统、SAM系统、PAM系
统。
LUNAR系统是伍兹(W.Woods)于1972年设计的一个自然语言情报检索系
统,
其目的在于帮助地质学家们比较和评价从阿波罗-11火箭得到的关于月球岩石和土
壤的组
成成分的化学分析数据,这个系统采用形式提问语言(formal query language)
来表示
所提问的语义,从而对提问的句子作出语义解释,最后把形式提问语言执行于数据
库,产
生出对问题的回答。
SHRDLU系统是维诺格拉德(T.Winograd)于1972年在美国麻省理工学院
建
立了一个用自然语言指挥机器人动作的系统。该系统把句法分析、语义分析、逻辑
推理结
合起来,大大地增强了系统在语言分析方面的功能。该系统对话的对象是一个具有
简单的
“手”和“眼”的玩具机器人,它可以操作放在桌子上的具有不同颜色、尺寸和形
状的玩
具积木,如立方体、棱锥体、盒子等,机器人能够根据操作人员的命令把这些积木
捡起
来,移动它们去搭成新的积木结构,在人机对话过程中,操作人员能获得他发给机
器人的
各种视觉反馈,实时地观察机器人理解语言、执行命令的情况。在电视屏幕上还可
以显示
出这个机器人的模拟形象以及它同一个真正的活人在电传机上自由地用英语对话的
生动情
景。
MARGIE系统是杉克(R.Schank)于1975年在美国斯袒福人工智能实验室
研
制出来的。该系统的目的在于提供一个自然语言理解的直观模型。系统首先把英语
句子转
换为概念依存表达式,然后根据系统中有关信息进行推理,从概念依存表达式中推
演出大
量的事实。由于人们在理解句子时,总要牵涉到比句子的外部表达多得多的内容,
因此,
该系统的推理有16种类型,如原因、效应、说明、功能等等,最后,把推理的结
果转换
成英语输出。
SAM系统是阿贝尔森(R.Abelson)于1975年在美国耶鲁大学建立的。这个
系统
采用“脚本”(script)的办法来理解自然语言写的故事。所谓脚本,就是用来描
述人们
活动(如上饭馆、看病)的一种标准化的事件系列。杉克和阿贝尔森假定,每个人
在他自
己的生活实践中,会自然而然地意识到这样的脚本,在理解故事时,这些脚本可以
用来建
立事件发生的语境,因而也就可以用来预料它所代表的事件的情况,并以这些脚本
为背景
来理解自然语言,对故事中的人物、地点、事件进行推理,在推理过程中,给它们
补充新
的信息,最后采用“同义互训”(Paraphrase)的方法,根据计算机理解的结果,
由计算
机复述原来的故事。复述时,由于在推理过程中补充了许多新的信息,因而所复述
的故事
的内容会比原来的故事要丰富得多。计算机似乎象一个有理智的活人,把在推理过
程中所
推出的新信息加到故事中,添油加醋地把原来的故事说得更加精彩。例如,输入这
样的简
单的故事:“约翰走进了一家饭馆。他坐了下来。他生气了。他走了。”SAM系
统的输
出为:“约翰饿了。他决定到饭馆去。他走进了一家饭馆。服务员没理他。于是约
翰生气
了。他决定离开这个饭馆。”计算机推论出,约翰离开饭馆的原因是坐下来之后没
有得到
服务。这是因为在关于饭馆的“脚本”中,有“服务有送菜单”的项目,而输入句
子中没
有这样的内容,却有约翰生气的句子,因此SAM系统作出了这样的推论。
PAM系统是威林斯基(R.Wilensky)于1978年在美国耶鲁大学建立的另一个
理
解故事的系统。PAM系统也能解释故事情节,回答问题,进行推论,作出摘要。
它除了
“脚本”中的事件序列之外,还提出了“计划”(plan)作为理解故事的基础。所
谓“计
划”,就是故事中的人物为实现其目的所要采取的手段。如果要通过“计划”来理
解故
事,就要找出人物的目的以及为完成这个目的所采取的行动。系统中设有一个“计
划库”
(plan box),存贮着有关各种目的的信息以及各种手段的信息。这样,在理解故
事时,
只要求出故事中有关情节与计划库中存贮的信息相重合的部分,就可以理解到这个
故事的
目的是什么。当把一个一个的故事情节与脚本匹配出现障碍时,由于“计划库”中
可提供
关于一般目的的信息,就不致造成故事理解的失败。例如,营救一个被暴徒抢走的
人,在
“营救”这个总目的项下列若干个子目的,包括到达暴徒的巢穴以及杀死暴徒的各
种方
法,就可以预期下一步的行为。同时能根据主题来推论目的。例如,输入故事:“
约翰爱
玛丽。玛丽被暴徒抢走了。”PAM系统即可预期约翰要采取行动营救玛丽。故事
中虽然
没有这样的内容,但是,根据计划库中的“爱情主题”,可以推出“约翰要采取行
动营救
玛丽”的情节。
杉克等学者还进一步研究语言理解和记忆的关系,概括各种具体知识结构为一般经
验,综合句法、语义、知识、推理为一体,建成FRUMP和IPP两个快速阅读
系统。
这两个系统存贮2000多个英语单词,对输入故事无须逐字逐句地分析,而是跳
过某些
词语提取故事中的主要信息。这样的系统可以对报刊上一些新闻故事自动地作出摘
要。
上述的系统都是书面的自然语言理解系统,输入输出都是用书面文字。口头的自然
语
言理解系统,还牵涉到语音识别、语音合成等复杂的技术,显然是更加困难的课题
,口头
自然语言理解系统的研究近年来也有进展。
我国自然语言理解的研究起步较晚,比国外晚了17年。国外在1963年就建成
了
早期的自然语言理解系统,而我国直到1980年才建成了两个汉语自然语言理解
模型,
都以人机对话的方式来实现。
八十年代中期,在国际新一代计算机激烈竞争的影响下,自然语言理解的研究在国
内
得到了更多的重视,“自然语言理解和人机接口”列入了新一代计算机的研制规划
,研究
单位增多了,研究队伍也壮大了。
目前,除了机器翻译系统和自然语言理解系统之外,面向计算机的语言的研究领域
还
扩展到了自然语言人机接口系统、情报自动检索系统、术语数据库系统、计算机辅
助教学
系统、语音自动识别与合成系统、文字自动识别系统、言语统计等领域。这种面向
计算机
的语言研究的研究已经成为现代科学技术的一个热点。(全文完)
参考书目:
⒈冯志伟,中文信息处理与汉语研究,北京,商务印书馆,1992年。
⒉Gazdar,Mellish,Natural Language Processing in LISP。
--
原谅我这一生不羁放纵爱自由
也会怕有一天会跌倒
被弃了理想谁人都可以
那会怕有一天只你共我
※ 来源:·听涛站 tingtao.dhs.org·[FROM: 匿名天使的家]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:2.662毫秒