首页 百科知识 语音控制与人工智能应用

语音控制与人工智能应用

时间:2024-09-05 百科知识 版权反馈
【摘要】:由此可以将人工智能概括为研究人类智能活动的规律,构造具有一定智能行为的人工系统。AlphaGo就是人工智能,但尚属弱人工智能,离计算机能够建立在非监督式的学习上,还仍需时日。但其辉煌的战绩,刷新了人类对人工智能的新认识。AlphaGo还只是停留在“封闭规则”中展现出了自己的“超长智商”,它并未全面反映人工智能的进展。总之,50多年来,人工智能在模式识别、知识工程、机器人等领域都取得了重大成就,但离真正的人类智能还相差甚远。

人工智能自诞生之日起就引发了人类无限美丽的想象和憧憬,但其在发展过程中也存在不少争议和困惑:什么才算是真正的“智能”?为什么再高级的电脑、再智能的机器与人类的智能相比仍然那么幼稚?人工智能作为研究机器智能和智能机器的一门综合性技术学科,产生于20世纪50年代,涉及心理学认知科学思维科学信息科学系统科学生物科学等多学科的综合型技术学科。也就是说人工智能的研究范围非常宽泛,涉及哲学、认知科学、行为科学脑科学生理学、心理学、语言学逻辑学物理学、数学以及信息论控制论系统论等许多科学领域。目前已在知识处理、模糊识别、自然语言处理、博弈、自动定理证明、自动程序设计、专家系统、知识库、智能机器人等多个领域交融发展,人工智能的这种综合性、交叉渗透性早在诞生之日起就得到充分的体现,目前已形成多元化发展方向。

人工智能是由McCarthy于1956年在达特茅斯(Dartmouth)学会上正式提出的,当时被称为世界三大尖端技术之一。人工智能是关于知识的科学——怎样表示知识以及怎样获得知识并使用知识的学科,简言之人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。由此可以将人工智能概括为研究人类智能活动的规律,构造具有一定智能行为的人工系统。

2015年10月阿尔法围棋(AlphaGo)以5:0完胜欧洲围棋冠军、职业二段选手樊麾;2016年3月对战世界围棋冠军、职业九段选手李世石,并以4:1的总比分获胜。AlphaGo就是人工智能,但尚属弱人工智能,离计算机能够建立在非监督式的学习上,还仍需时日。但其辉煌的战绩,刷新了人类对人工智能的新认识。

谷歌人工智能围棋AlphaGo算法+IBM人工智能国际象棋Deep Blue(深蓝)算法,都显示机器的智商也可以超越人类。但AlphaGo只是人工智能的冰山一角,它还不够智能,因为AlphaGo还不能观摩别人下棋就知道围棋这个概念、围棋的规则,并基于此去学习人类的做法进而学会下棋。AlphaGo还只是停留在“封闭规则”中展现出了自己的“超长智商”,它并未全面反映人工智能的进展。百年前人们第一次看电影见到屏幕上的火车,吓得四处溃散,倘若一直保持着对人工智能领域的关注,就不会对AlphaGo的胜出大惊小怪。

六十年的时间,让人工智能走过了3个阶段。

第一阶段:20世纪50—60年代,人工智能停留在能存会算的计算智能阶段,仅局限于计算机的存储与运算的满足。

第二阶段:20世纪70年代,能听会说、能看会认的感知智能,感知智能是通过传感器和算法感知世界。

第三阶段:20世纪80年代后,AI进入以知识为中心的人工智能阶段,围绕知识表示、推理、机器人学习来进行研究。基于互联网和移动互联网的“研究—工程—产品—用户”闭环加速了知识迭代优化进程,为第三阶段能理解会思考的认知智能开打了大门,认知智能是能够对自然和人类世界进行认知。可以说,十年前人工智能理论还尚未成熟,得益于科学研究方法论的创新,目前已经确立“信息—知识—智能转换”的模拟机制来打开人工智能的未来。

从这3个阶段,我们也看到了IT产业的5次浪潮,看到了人机交互的硬件发展,从20世纪60年代的大型机、20世纪70年代的小型机、20世纪80年代的个人电脑、20世纪90年代的桌面互联网时代、21世纪最初十年的移动互联网时代、2014年后的移动穿戴式设备时代。未来的硬件属于无屏、移动、远场状态下,以语音为主,键盘、触摸等为辅的人机交互时代。

人工智能科学已经诞生了半个世纪,先后出现有逻辑学派(符号主义)、控制论学派(联结主义)和仿生学派(行为主义)。符号主义方法以物理符号系统假设和有限合理性原理为基础,联结主义方法以人工神经网络和进化计算为核心,行为主义方法则侧重研究感知和行动之间的关系,目前这些理论都在人工智能的各个领域取得了重大成果。

目前,人工智能技术正在向大型分布式人工智能及多专家协同系统、并行推理、多种专家系统开发工具,以及大型分布式人工智能开发环境和分布式环境下的多智能体协同系统等方向发展,这些多系统包括问题求解、专家系统、神经网络、模式识别、机器学习、人工生命等,这些都是人工智能的重要分支。总之,50多年来,人工智能在模式识别、知识工程、机器人等领域都取得了重大成就,但离真正的人类智能还相差甚远。

中国引进智能家居系统的概念,最早要追溯到微软公司董事长比尔·盖茨于1999年3月10日在深圳宣布的“维纳斯计划”。目标是开发基于微软Windows CE操作系统的集娱乐教育通信、互联网等于一体的产品,这种介于电脑和家电之间的模式,最终未被消费者接受。目前已经演化到APP终端泛滥的模式,所谓“智慧”的标签无非是从桌面电脑转化到手机智控模式,传统的有线控制系统并未改变,市场上的各种无线系统以及物联网无线技术都在蓬勃发展,让曾经PC单一的控制方式,变得更加丰富便捷。智能家居的智慧正在从AP移动终端的模式升级到人工智能自控模式,在智能、方便、高效、便捷的功能标签上,又增加了个性化与自控制等基因,智能家居的终端控制进化得越来越有意思,静待AI家居机器人时代的来临。

IBM:1997年IBM用深蓝计算机令人难以置信地战胜了国际象棋冠军。与美国德克萨斯大学联合打造的“沃森”基于单机,并不联网,但能够进行大量的自然语言处理,并且回答人类各种问题;在2011年,它在一档智力竞猜节目中战胜了人类。

微软:微软拥有类似于Cortana的人工智能助理,可以基于上下文的“长程情感对话能力”,Cortana具有自我学习能力,能够在与人类交互中变得越来越聪明。

Facebook:Facebook拥有3个人工智能实验室,其个人数字助手服务名为“M”,可代表用户执行一系列任务,如购物、预约或赠送礼物等,它的社交搜索算法可以借助用户好友关系去过滤和进行排序,给用户最想要的搜索结果。

Apple:Siri的使用者可以通过声控、文字输入的方式来搜寻餐厅、电影院生活信息,同时也可以直接收看各项相关评论,甚至是直接订位、订票。另外它能够依据用户默认的居家地址或是所在位置来判断、过滤搜寻的结果。人机交互是Siri的特色。例如,使用者在说出或输入的内容包括“喝了点”“家”这些字,不需要符合语法的人机交互相当人性化,Siri则会判断为喝醉酒、要回家,并自动建议是否要帮忙叫出租车。

近几年智能语音技术业步入高速发展期,当前中国智能语音市场主要有两大类公司,一类是传统的IT巨头,如微软、IBM、苹果等;一类是专业语音技术厂商,如科大讯飞、思必驰、云知声、中科信利、中科模识和捷通华声等。国内智能语音几家公司以中文语音为核心,将智能语音逐步融入我们的生活之中,如智能车载系统与手机地图导航APP已经是常用场景。除此之外,智能家居的家庭安防与控制系统都存在智能语音的身影。家用电器也趋于进入可以语音控制的角色,如美的、海尔等家电企业推出语音控制空调,让空调摆脱了遥控器的束缚;又如乐视、长虹、海信等也接连推出语音控制电视,可以通过语音发送命令实现变换节目、频道及开关机等,这些电器虽然目前没有大面积普及市场,但已经是未来智慧生活的缩影。

国外智能语音在智能家居的发展

目前,国内也拥有通过以听歌为主要场景的音箱产品,来打造未来家庭智能的入口的趋势,而这种智能音箱唯一的交互方式便是通过智能语音,国内此类产品本身做得不够好,用户消费还是比较惨淡;将智能音箱升级的是智能机器人,往往增加触屏交互功能,聊天机器人多以儿童用户为价值用户,因为儿童的心智本身就是非理性以及跳跃的,并且重复的东西儿童也会喜欢,所以儿童可以持续和机器人玩,而成人对于智能的需求就高一些;另外在影音方面围绕电视、音响和背景音乐等,用户有搜片、FM和听歌等需求。虽然现在智能语音因为真实复杂的环境,如远场、方言、多轮对话、准确率等问题还需要解决,但智能语音一定会成为智能家居标配,因为老少皆宜,可以告别烦冗的APP,当智能语音的体验愈加“类人”的时候,我们也期待更多真正有价值落地的产品。

国外智能语音主要以谷歌、苹果、亚马逊、微软几大巨头为标榜,谷歌在今年推出的Google Assistant人工智能语音助手是基于成熟的Google Now语音系统,成功植入Google Home智能家居音箱中,其体验感是目前世界上最优秀的智能语音系统;其次便是微软的小娜,主要植入游戏、PC、VR等智能家居周边的外围设备,基于微软良好的软件基因,微软小娜的语音体验也非常好,最重要的是支持多国语言;苹果基于智能家居HomeKit以及自身智能硬件圈,将所有对接HomeKit的智能家居产品都可以通过旗下智能语音软件Siri控制。虽然互联网时代的硬件布局比较成功,但是对接进度近两年较为缓慢,国内的声音在近期才有所热议;而基于亚马逊的Alexa智能语音打造的Echo智能音箱,目前已成为美国最成功的智能家居入口级硬件产品,数以千万的家庭在使用Alexa语音进行智能家居设备的控制,对于中国来说也不失为一种好的效仿模式。

如今人工智能得到快速发展的根本原因是已经具备硬件基础,大量数据产生之后,通过低成本的存储器将其存储,再通过高速的CPU对其进行处理,最终统计、分析、处理后的数据,可以让计算机做出接近人类的处理或者判断。对于智能家居方面的人工智能只是人工智能外在形式的一种,最直接的形式便是家庭智能机器人。但目前市场上的智能家居机器人多为玩具,并不能对家居智能化提供帮助。产品需要升级改进,但至少是下一代智能家居控制中心的硬件基础。

(1)基于规则的人工智能。在计算机内根据规定的语法结构录入规则,用这些规则进行智能处理,缺乏灵活性,不适合实用化,从现在的角度来看,这种方式不能算作人工智能。

(2)计算机读取大量数据,根据数据的统计、概率分析等方法,进行智能处理的人工智能,具有无规则性。

(3)目前最主流的人工智能路径,是一种基于神经元网络的深度学习,计算机读取大量数据,其好处在于运算结果的精准度,最终反应的便是人工智能的“智力”。

我们重点介绍第3种。目前,人们已经认识到人工智能的三大法宝:深度神经网络+大数据+涟漪效应。这种方式的最终巧妙在于AI可以不断优化自己的算法,借助云端的服务器集群,让自己的“思维”即计算能力呈现指数级增长。我们已经做到了人工智能的“从0到1”,让计算机已经可以思维,未来我们将“从1到N”,让计算机的行为表现越发智能。

“深度学习”往往是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法进行权重,再产生另一个数据集合作为输出,这就好像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,也就像人们识别物体标注图片一样,整个过程非常神奇。

研究者们都在尝试如何让机器学习得更加聪明,不断地对学习的方法进行优化,比方说常见的方法是通过方法A优化知识B,生成新的知识C,发现知识C的用户满意率反而下降了,此时回头对方法A进行优化,当然还有更多的逻辑学习模式。

目前,国内市场尚缺成功的智能家居单品,通过智能家居单品,来打造智能家居平台的共性使单品本身具有“人工智能”性。2016年是智能家电元年,普通用户对智能家电的理解就是加装Wi-Fi模块入网的传统电器,但实际上,联网只是第一步,也是最基础的一步,普通用户目前只能教育到第一部分的阶段,而随着智能家电体量的扩大,实则用户接触到的第一体量级爆品就是智能家电产品,如智能空调。

但是智能家电产品不是人工智能产品,最终却要演化到家居人工智能体系中去。目前第一步正在中国大范围地进行中,实现全面家电联网的目标。第二步,是具有自动化的家电,可以跟许多传感器联动,例如各种品牌的空调、净化器可以与温湿度传感器、环境监测套装联动。第三步,是家电的人工智能学习,如空调可以根据室内外的温度、用户习惯、用户当前状态来完成无感式操作,能够完美地达到无感操作。如知道女主人来例假了,空调温度不能调太低,适度高出几度以保护用户的身体健康。

鸿雁的智能家居3.0战略离不开人工智能,因为人工智能的服务是高附加值服务,高附加值服务意味着能够获取更多的用户,而用户数量的增加意味着数据量的增加,最终也会反馈到人工智能系统之中,再优化自身服务作用于用户,这是良性循环。

对于智能家居方面的人工智能只是人工智能外在形式的一种,最直接的形式便是家庭智能机器人。在新的万物互联的时代来临,智能家居的形式与现在的形式将会发生很大的变化,人工智能的兴起也将加速智能家居领域的变化形式。介于人工智能的复杂程度,我们讨论的AI是初级的AI,是简单的AI,是适用于目前智能家居智能控制的AI,它会走进我们的空调、我们的电视、我们的洗衣机、我们的电灯、我们的窗帘、我们的智能水壶、我们的智能插座等等,这些设备智能化了以后,能够让生活更简化,用户就会想用,就会买单,就会喜欢这样的产品,而不是下载一堆APP将之复杂化。

用简单的例子来说,人工智能与智能家居的结合可以分为三个阶段:第一级是控制,也就是远程开关、定时开关等控制方式;第二级是反馈,把通过智能家居获得的数据通过人工智能反馈给主人,例如“最近几天看电视有点多哦”;第三级是融合,当主人跟人工智能聊别的事情的时候,人工智能知道主人心情不好,就可以问主人要不要来一段音乐,或者直接播放一段主人平时听得最多的音乐。我们目前的智能家居最多做到简单的反馈。如我们耳熟能详的Nest温控器,可以自动调整主人需求的温度,并进行自我学习,但是遇到多人同时使用Nest时,记忆模拟曲线便会发生混乱,所以也只能算得上简单的学习反馈,还无法达到人工智能设备的标准。

人工智能的重要性与趋势可以用一句话来概括,如果没有人工智能进入智能家居,没有让智能家居产品拥有“会思考、能决策”的能力,而是继续把控制丢给烦琐的APP,那么这个行业永远只是一个小众行业,永远是我们圈里非常热,但圈外不买单的一个行业,所以说人工智能的应用对于智能家居行业来说是未来的必然。

3.0基本上是中央控制,所有的都是集中控制和有限通信,是一个单量的过程。4.0最突出的特点是知识存储和语音分析,所有生产制造过程是有弹性的过程。它很大的特征就是无线通信,因为科技发展以后,可以让无线技术变成随意使用的技术。3.0和4.0有两个很大的不同,一个是大规模的生产,一个是大规模的定制。两者之间的区别在于,大规模的生产主要的管理理念是以产品为中心,以低成本赢得市场,现在大部分的产品目前还是在这个阶段,靠价格竞争。大规模定制是以客户为中心,快速响应来赢得市场。两者的驱动方式也有很大的不同,一个是根据市场预先安排,大规模生产是由产品经理负责,他根据市场的反馈,收集所有的信息,产生产品的订单,为产品定义生命期,安排生产。但是大规模定制是根据客户的顶点生产,也就是说根据部分或者是全部客户定制的方式来做。所以4.0时代,依据人的因素解决做产品的因素高于客户的需求,这也是智能化道路的未来。

智能家居企业不仅要把产品智能化,而且要全面智能化,包括生产智能化、设备智能化、能源管理智能化、供应链管理智能化,这是现在的行业主流概念,也是未来的趋势。传统的方式是使市场信息、材料、能源变成产品。智能生产方式是靠智能物料、云安全网络面向不同的智慧工厂,产生智能产品。大规模生产的品种比较简单,根据产品的规模来做这件事,大规模定制是根据整个使用的体验来做产品。

早在计算机发明之前,自动语音识别的设想就已经被人们提及研究,早期的声码器可视作语音识别及合成的雏形。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字,其识别方法是跟踪语音中的共振峰,识别率可达98%,标志着人类在语音识别方面取得了重大突破。语音识别、手写识别等错误率保持每年30%~50%相对下降。方言识别、人人之间语音转写、语音听写、纸笔试卷手写识别等都在语音识别的研究范畴。

智能家居中使用的语音识别主要面向小型化的情景,如智能家电的控制、智能玩具的控制、智能汽车的控制,等等。语音识别技术的研究始于20世纪50年代初期,发展到20世纪70年代,各种语音识别装置相继出现,性能良好的能够识别单词的声音识别系统已经进入实用阶段,神经网络用于语音识别也已经取得成功。

识别语音许多公司都可以做,但识别之后还要理解语义,而人类的语义规则却是千变万化的。以语义识别为主导的自然语言回答,代表了未来智能化的产品的终极形式。基于云计算的自然回答功能,结合智能家居系统在功能和应用上更是可以开拓无数,简单地对其下语音命令,如“开灯”“拉窗帘”等,更可以利用云计算功能对其命令甚至是普通语言进行深度理解。如“问:天太热了。答:空调再开下去要低于舒适温度了,你确定真的要调低吗?”又如“问:我要辆车,15分钟能过来。”智能家居自动拨号,并订车。

智能家居核心在于人机交互,人机交互在于语音识别、语音智能技术。仅仅是语音识别和语义识别还不能称为人工智能语音系统,因为这两个功能都可以通过庞大的数据库和巨大的人工录入工作来使前端性能表现得很好,智能反应的层面是自学习、知识判断、自优化这几个重要的特性,不是简单的记录,而是抽取、拆分、判断、记录,利用搜索技术抓取各类网页、书籍、文献,然后学习其中的知识,前端反应在语音方式的输入,终端反应在语音方式的输出。

在安静环境、发音标准情况下的语音识别的成功率接近100%,但是嘈杂环境、带口音、不连贯等情况下的语音依然是万年的老大难问题,所以说目前市面上的智能家居带语音的产品,效果与用户所想有很大落差,但语音技术正在从小规模的使用转向全面产业化成熟,尤其是在智能家居领域中产品级的软硬件非常多,许多智能家居系统都具备基本的智能语音功能,几乎所有的智能家居机器人都带智能语音功能。

美国年龄介于13~18岁的青少年当中,约有60%的人每天使用语音搜索,这些青少年再过十年将是智能家居的消费者,对带有智能语音的智能家居设备需求可想而知。语音识别企业在国内市场份额最大的是科大讯飞,国外做语音板卡最好的是Nuance(纽昂斯)。

智能家居系统常见的控制方式有以下3种:面板控制、原装触摸屏、第三方面板控制,如iPad、智能手机等,采用基于云计算和语音识别技术的智能家居系统将是最接地气的新操作方式,语音控制并不会替换原有的控制方式,只会交融使用,目的是让用户的体验感更好。在人机交流界面上,直接以语音进行操作也无需面板的存在,同时采用云计算,本地无需计算能力,因此控制端可以设计成便于随身携带的,如手表、挂耳式耳机等更加方便的控制端形式。

(1)对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则。

(2)语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的。例如,一个说话人在随意说话和认真说话时的语音信息是不同的,也就是说一个人的说话方式随着时间一直在发生变化。

(3)语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的,这在英语和汉语中很常见,但这确实是智能语音能否识别精准的关键。

(4)单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音速度等,往往难以识别。

(5)环境噪声和干扰对语音识别有严重影响,也容易使语音识别率低。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈