新闻详情
离线AI语音技术创造新的终极
发布时间:2020-01-21 13:35:59 来源:本站
每一次的科技变革,所带来的不只是产品的更新迭代,还有一种全新的生活方式。就比如触屏手机的出现,老式键盘退出了历史舞台,繁琐的操作方式被抛弃,手机有了多样化的界面风格和丰富的娱乐功能。
同样的,当智能语音技术出现之后,触屏又显得out了,通过语音就能输入文字、操控手机里的应用、导航路线,甚至远程控制家里的设备。智能语音技术身后的巨大经济空间被迅速发掘,吸引了众多科技公司投身其中,各种各样的语音产品如雨后春笋一般出现在我们的生活里。
智能语音是智能家居的起点
在电影《钢铁侠》中,智能助理贾维斯的出色表现让大家充满了对智能语音助手的期待。语音识别技术就是为了让机器人听明白你在说什么,它就好比“机器的听觉系统”,该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令。
语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如下图所示:
语音识别系统构建过程整体上包括两大部分:训练和识别。训练通常是离线完成的,海量未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板;而识别过程通常是在线完成的,对用户实时的语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大模块:“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”),得到其包含的文字信息
而国内2014年语音巨头科大讯飞就宣布进军智能家庭市场,并发布了智能语音助手灵犀3.0来操控智能家居设备。
由于整个市场的价格竞争比较激烈,基于智能音箱通过蓝牙mesh的方式推广的智能音箱中心化控制的语音声控类的产品价格竞争尤其明显,利润逐步被稀释。无论是Google、Apple或是微软等平台业者,透过语音控制技术让更多型式的智能装置能在家中的生活空间取得更大的地位,让更多物联网装置更容易进入家庭的领域。所以语音助理的应用不仅为家庭生活带来更多的惊奇,也进而带动智能家居在目前有较明显的进展。
语音控制中的不良反馈
①智能音箱通过网络在云端识别反馈的控制速度比较慢,通常网络一般的情况下反馈时长为300—500ms,网络情况良好的情况下也有300ms左右。
②智能音箱通过半径3米—5米内才可以语音控制其他设备。假设智能音箱放在客厅,那控制卧室的灯必须要在客厅实现,如果身处卧室想控制卧室的灯就比较麻烦。
离线AI语音技术创造新的终极
③绝大多数的云端识别都会在后台录音,相当于用户在家里不知不觉的情况下声音的隐私已经被侵犯,并上传到云端做了保存。这点在欧美和日本客户那里的反馈比较明显,国人也对声音的隐私开始重视起来。
市场成熟后的需求变化
目前,智能家居已经进入市场推广阶段,并且有很多成熟项目不断落地,行业发展前景可谓是日趋明朗。但是随着智能门铃、智能猫眼、智能厨房电器以及睡眠跟踪记录传感器等设备的广泛应用,现在智能家居甚至已经延伸到家庭中最私密的区域。
智能家居技术给人们日常生活带来了极大的便利,比如让你知道加热器是否打开或门有没有锁上等等,但这些连接的设备也带来了许多安全问题。语音控制作为智能家居入口,在控制过程中牵涉到网络传输的部分,对于智能家居系统是否安全起到至关重要的作用。
离线的简单语音控制应用在这几个问题上得到了有效的解决,通常家电和小家电的应用场景的控制也只有几个功能性动作就能解决。应用场景就是切入到用户的这个需求点,分布式地提供给用户单个产品的针对性的声音控制。不需要基于手机、智能音箱和网络就可以通过声音进行控制。
·TOC领域包括高性价比智能音箱、全双工网络电话、AIOT智能家电、后装车载智能语音助手等。家电控制(空调、洗衣机、冰洗、热水器、风扇等)并支持分布式语音控制和联动。
在网络状况不好或者没有网络的情况下,可以使用基础控制的本地命令词进行离线控制。
·TOB领域包括酒店智能语音助手(云端语义针对酒店服务应用可定制化,如:客房服务、订餐服务)包括可植入酒店空调、酒店控制面板、酒店客房电话等设备应用。智能校园宿舍管理(云端可针对宿舍房间号定点推送上课通知、语音控制、网络电话等)。
实际上,全屋智能的控制类产品都是离线语音的主战场。离线主打控制,在线主打交互,是目前智能家居落地比较亲民的一种模式。
离线的语音识别和在线的语音识别是有所差距的:
l 离线语音识别:固定词条,不需要连接网络,但是识别率稍低
l 在线语音识别:词条不固定,需要连接网络,识别率较高,但是效果会受网络影响, 价格相对较高
产生差距的原因有两点:
① 语音识别比较重要的一个因素是:语音库,它作为识别过程中对比的数据
在线的语音库在云端,存储的数据是非常庞大的;而离线的语音库在本地,空间是有限的,那样对比的数据样本差异就比较大,假设输入的语音“打开灯”,那么识别的过程就会将此语音拿来与语音库中的声音样本做对比,语音库中数据样本越多,成功匹配的可能性就越高,所以识别成功率就越高
②在线识别的运算速度是非常快的,和离线语音识别相对比就类似为CPU的运算速度和芯片的运算速度,等级相差比较大的
因此,离线的效果是没有在线的那么好,那是不是意味着离线就没有价值呢?不是的,每个技术出来都有其价值,只是不同的技术适用于不同的领域,离线识别效果稍差,但是在近距离,相对安静的环境下,识别率是可以达到90%以上的;而对于一些不连接网络的产品,如:移动照明,按摩器等,离线语音识别比在线的就更加适合,而且从价格方面来说,离线语音识别应用能满足挺多场合的,价格比在线的便宜,应用在线语音识别最终的产品价格也会相对偏高,看用户的一个研发产品市场定位跟选择的。
各家不同的离线语音方案
离线语音解决的基本问题包括本地语音识别、本地计算、部分的数据训练。相应的,对于硬件的要求就是低功耗、低成本、快速响应。
离线语音解决的基本问题包括本地语音识别、本地计算、部分的数据训练。相应的,对于硬件的要求就是低功耗、低成本、快速响应。
由于语音交互类的设备本身在产品形态上差异化很大,使用场景也呈现出碎片化的特点,要为用户提供自然的本地语音交互体验,就要对不同的产品做出不同的语音控制命令,这些都需要通过修改代码实现,工作量可想而知。
智能家居以家庭为单元,运用多种信息技术,达到监控与信息交互的目的,在未来,居住更加智能、消费者的居住体验更加舒适,一场由语音交互的变革看起来势在必行了 bvh.+