按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
是如果我们把历史拨回去十年或二十年,我们发现每一年我们都可以完全地期望语音识别比前一年更好10%,也就是说去年它如果犯100个错,今年就只犯90个错,明年就会只犯81个错。照这样数量的下降呢,肯定有一天,自然语言的识别自然语音的理解,会达到人的能力,人的语音识别的精准度。语音识别当然比较复杂一点,不是说计算机快了,就自然而然的就好了,而这是一个组合,更快的计算机,更好的算法,加上更多的数据,促成了语音这个行业每年都有可以预期的10%的进步。所以我们可以确定地说在十年到二十年之内,计算机的语音识别会达到人的能力,这是非常振奋的一件事情,也就是说,我们只要继续努力的工作,自然用户界面一定有来到的一天,这只是语音,当然还有很多技术,也是基本上在这个原理上每年比前一年做得更好。
现在我想讲的是在自然语言方面的处理,将有什么样的一个计划。我们的想法是这样的,我们当然有一天希望我们当然希望明天就能够到电脑上和它自然语言沟通,但是有很多很多的问题,一方面是技术,还要靠每年的进步,不是今天的技术,就能达到这种科幻小说上面的能力,这要经过十年或二十年的努力才能达到。第二个问题是人们并不习惯和它的电脑讲话,所以我们就算把这个能力做进去了,也不见得是能够被这个社会马上所接受的。第三,我们微软公司做平台的工作,我们深深地理解,平台不能够促使用户们的接受一个技术,需要应用软件才能够促使它的接受。所以,今天我们必须要让未来的语言语音进入了未来的应用软件,然后在平台上给它最好的支持,这样才有一天有希望能够做到。所以这就是为什么我们说Practical计划(实际的计划),我们不是梦想明天就可以跟电脑讲话,而且跟人沟通一样的自然,我们是一步一步地来,那这一步一步怎么来呢?
我们第一挑选最自然,最合理的一个启发点。语音我们就用电话来做,不要用PC来做,因为大家不愿意和电脑讲话,但是每个人都会对电话讲话。如果说我能够用语音的方法接电话,我就能够帮一个航线,帮中国航空公司,帮中国民航,它能够接电话告诉你你的航班几点抵达,甚至帮你订票。我可以帮一个股票经济商,帮你购买你需要买的股票,或者甚至问你要不要买某一个股票,也就是说,语音在电话上就像一个人和你对话一样,但是是机器在做的事情,但是因为电话是一个我们很自然愿意讲话的工具,人们就会更容易地接受它。
第二,我们不只是用讲话的,我们可以用打字的。我们有键盘,那在什么情况之下人们会用打字的方法输入自然语言在一个电脑里面呢?这有两个地方一个是Search(搜索),不管是网上的搜索引擎还是在电脑上面搜索您想要的档案,这都是搜索。或者是Help,帮助,这也挺有意思的。因为我们想要做一点事情,我在Word里我想知道怎么把一个表格一分为二?这句话现在是要人经过把这句话转换成图形用户界面来做它,但是人可能不知道怎么转换,但是当你不知道的时候,你就会打开Help(帮助),然后就问它,把这几个字打进去问它。所以这两个是非常合理地把自然语言处理的方法放进Windows平台里面,能够更好地支持搜索,能够更好地支持对用户的帮助。
我们非常实际地务实地一步一步来,在这两个 Speech for Telephone and Typing with Searching Help的方向呢,我们一步一步地来,把用户界面一步做得比另一步更好。但是我们的第一步,如果用户用完以后,并不觉得有自然用户界面,或自然语言处理的功能,我们并不沮丧,只要他认为说这个Search(搜索)越做越好,我们就挺开心的。我们再一步一步地往下做下去,另外我们并不是一个认为自然用户界面将取代图形用户界面。虽然在电话上你没有图形,那当然是可以取代的,但是在PC上面其实更合理的是应该用自然语言的方法,自然用户界面的方法,来辅助已存的图形用户界面,因为人们还是更习惯地用图形用户界面,他们不希望看到一个革命性的彻底的一个新的功能,或者一个新的用户界面。
第三,这个基础我们是用。NET来做的,所以这一整套系统我们是重新开发的。我回到美国总部之后呢,我们就在。NET的基础上用Visual Studio(可视化控件)来帮助我们的Developer (开发人员),能够把已存的应用软件加入语音的功能,加入自然用户界面的功能。我们在。NET Framework(。NET架构)上开发这一整套系统,我们利用XML Web Service(XML Web服务)能够让不同的系统能够彼此沟通。所以。NET对我们的用户界面是非常需要的一个低层的支持和技术,因为。Net可以在多种的设备上使用,所以我们也认为经过。NET我们可以在电话、电视机、汽车、 电器上都可以使用我们的自然的用户界面。所以我们怎么走这条路呢。
第一在Telephony上,就像我们刚才所说的,Text Speech(语音合成)、Speech Recognition(语音识别)、Dialogue(对话)也就是说人机对话的沟通,在PC上我们要做搜索,要做帮助。再下一步 Q Delegation就是委托式的用户界面,也就是说我们用户我希望告诉我的PC,不是一步一步怎么做一件事情,而是最后我要得到什么样的结果,而我聪明的PC会帮我计划一步一步地完成它。还有Federation(联盟),就是说,我要求我的PC做一件事情,它不会做,但是它知道别的PC,或者别的Web Service(Web服务)可以做,它可以经过我委托它,它再委托别人去帮我做这件事情。再下一步Collective Agent(集中式代理),这个 Agent(代理)用户界面就是说不是我做用户来启动每一件事情,而是计算机可以主动地说,发生了什么什么事,你要不要怎么怎么做。比如说微软的股票超过四十块了,要不要卖,这个不见得是我人去主动地要求的,而是我很早地要求我得力的计算机助手帮我留意着微软的股票超到某一个程度,就要买或者要卖。当然把这个做好还需要Planning,也就是计划方面的工作。
我们举一些例子,用语音怎么做呢?打电话买一百股微软,好买了,这就是语音的一个对话。Dialogue(对话)我可以说买微软的股票,它会说要买多少股,我说一百股,这就是一个对话,我讲一句它讲一句,我讲一句,轮流的。从语音的角度来看呢,我们认为Smart Device(智能设备)跟语音是有非常大的关系的,因为今天我们可以把所有的设备分成这两个轴,从y的轴我们看到的是基本上是说它的Screen,它的显示器有多好。从x轴来说呢,我们说它的输入,比如说键盘或者鼠标有多好。当然PC是在右上方的,因为它有很大的Screen(屏幕),又有Keyboard(键盘), 又有Mouse(鼠标),电话是最差的,因为它又没有Screen(屏幕)又没有Keyboard(键盘)。其实呢,还有很多其他的设备,这些设备包括Tablet PC,PDA(个人数字助理),Screen Phone(可视电话),汽车或者TV,这些市场今天都比较小,但是很重要的是在下八年,到2010年的时候我们会看到的是 Screen Phone(可视电话) 和PDA(个人数字助理) 会越来越大。更多的汽车也会变成有计算的功能,也可以上网。更多的电视也会有计算的功能,也可以上网,而Tablet PC会成为更主流的技术。也就是说,有更多的平台,有更多设备的平台,上面是急需语音的一个输入的一个方法。我们在左下方,也就是说Screen(屏幕)非常糟的情况之下,那么语音呢,就可以不要理会它的 Screen(屏幕),我们直接语音对语音地(来)做一个对话。当你有一个小小的 Screen(屏幕)的时候,我们也许可以用(语音)的输入,而用图形的输出。所谓的 Multi Model(多模式),或者mmnd and Control( 命令和控制),当我们Screen(屏幕)够大的时候,这个时候我就可以做听写了,因为听写需要做修改,修改的工作需要一个比较大的一个显示。所以上面的这些机器呢,比如说Tablet PC和语音的听写,是一个很好的结合,所以这几个是语音的很好的机会,那么下面我将做几个语音方面的演示。
第一个演示,我现在要打电话到美国,这是我们微软公司用SALT技术在用。NET技术和SALT技术做出来的一套系统,这套系统呢,我们将在中国的Visual Studio(可视化控件) 的比赛让中国的学生甚至比美国的学生更先能够有机会用到这方面的技术。在这个演示里面,你们会听到的是有一个很聪明的电脑代理,他会跟我有一段对话,那么我要他做一件事,它会做一件事,这套系统呢,是用Visual Studio(可视化控件)开发出来的,然后微软提供了很DialogueModule(对话模块),也就是说,开发者他编一个语音的系统。
——410155543——您好,需要帮助吗?
——请帮我处理一下学院基金。
——给我申请表。
——您需要我把信以邮寄的方式还是Email的方式给您?
——Email。——我已经把信发到您的Email里了。您需要我们找个业务代表帮助您填申请表吗?
——是的,谢谢。
——谢谢,我们马上就会与您联系。您有一封来自银行方面的告警信,您需要我们把它传给您吗?
——好的。
——请稍等。
——艾伦,您好!您有三笔帐单未付。首先是电费 43。5,长途话费 62。25,DSL 31。52,您愿意付帐单吗?
——付电费和长途话费。
——电费和长途话费将在两天内交清,您还