智能音箱漫谈

2018-11-16  来源:互联网 

首先请各位思考一下,除了声音,人类还有其他隔山打牛的本领吗?

之前我在很多文章里都讲过,对于智能家居系统来讲,手机APP控制仅仅是一个过渡,语音入口才是未来。拿到Amazon Echo后,我写了文章《这就是未来》,果然,现在遍地开花的智能AI音箱已经印证了这一点。

智能音箱漫谈

其实这道理很简单,人类要想控制智能家居系统,必然需要一个接口,而这个接口如果是人之外的设备,例如手机或者控制台,那么人需要拿出手机或者走到控制台那里,都不够方便。如果这个接口不需要接触,可以隔山打牛,那么就会更方便一些。但是如何在不接触的情况下获取人类的想法等信息呢?我们可以思考一下,信息传递靠的是波,人能发出或者反射的可以传递信息的波不过就是红外线、光线和声波,当然,你要是天线宝宝发射脑电波那就得另外考虑了。探测人类发出的红外线能够检测有无人员活动,但无法传输复杂信息;探测人类反射的光线可以通过手势等实现交互和控制,但是光线波长短,衍射能力差,牵扯到方向性且容易被阻挡;唯有声波这种机械波,波长足够长,衍射能力强,方便发射接收,符合人类几百万年形成的自然语言的习惯。

所以基于自然语言的智能AI音箱迅速风靡也就不足为奇了。

“有点冷,帮我打开空调”,空调自动开启;“来点轻松的音乐吧”,音乐缓缓飘过来;“来段相声乐呵乐呵”,有趣的相声就会来拯救无聊的你;“唉,我今天有点不高兴呢。”AI就会陪你聊天说笑一直到你高兴;“我要看电影,冯小刚导演的《芳华》”,家庭影院系统自动启动,为你播放电影《芳华》;“我要睡觉了”,无关设备自动关闭,空调自动调整为睡眠模式,灯光缓缓熄灭,助你好梦。有了智能AI音箱,以上这些都是“一句话的事”。

了解一个东西,我们必须首先知道它的基本原理

智能音箱漫谈

智能音箱的技术原理并不复杂。硬件上主要就是主控板、通讯组件、麦克风阵列、喇叭以及按键、灯光指示等等,硬件构成和普通手机、平板等产品类似,都是处理器、内存、Flash存储、WiFi通讯芯片等这些通用的东西。所不同的就是智能音箱更专注于语音处理,麦克风更多,构成了阵列,音箱喇叭更多,音腔更大,音质更好而已。

从软件来讲,智能音箱对人类说出的自然语言进行处理,然后发出相应控制指令或者给出语音反馈。软件主要包括:语音检测(VAD)、降噪、唤醒、识别(ASR)、理解(NLU)、产生语言(NLG)、合成语音(TTS)这几个过程。

语音检测用于判断是否有人类的语言,如果检测到人类语言,那就对这部分信号进行降噪(包括回声消除AEC、声源定位DOA、波束形成BF)处理,然后识别其中是否有唤醒词,如果没有则丢弃,如果有,则进入交互状态。交互状态主要包括识别(ASR)、理解(NLU)、产生语言(NLG)、语音合成(TTS)这几个部分。其中识别(ASR)和理解(NLU)主要依靠云服务,也就是智能音箱将这部分语音信号处理后发送给后台云服务,然后进行识别,识别后的语音信号就变成了字和词,对这些字和词进行分析识别,就理解了用户的意图。理解意图后就可以发送一些控制信号、搜索相关信息、查找相关内容,然后产生应答的语言,再通过语音合成变成自然语言由智能音箱的喇叭输出,如此完成交互过程。

明白了原理,我们就可以分析一下市场上的这些智能音箱产品了。语音不同于其他,Echo足够优秀,但是国内使用它的人并不多,因为它不能识别中文,更别说方言了。所以,对于这类产品的分析,只能局限于国内产品。

智能音箱漫谈

智能音箱是在某种场景下的产物,比如Echo的购物,苹果HomePod的智能家居入口等等,所以本质上只有有应用场景,智能音箱才有市场,没有任何内容支持和Iot联动,是没有多大意义的。所以,生态对于智能音箱来说至关重要。结合智能家居生态,大概可以把国内主流智能音箱产品划分为小生态和大生态两大类。

小生态的代表是若琪和小雅。不得不说,若琪是比较早期起步的智能音箱,在AI算法方面有了不少的积累,表现不错,但是对于智能家居系统来讲,它能联动的组件并不多,局限于Lifesmart、Broadlink、Orvibo和Philips的小部分产品。喜马拉雅的小雅主打内容,有靠山喜马拉雅FM的支持,内容足够丰富,宣称是有情感有温度的人工智能图书馆,但是从智能家居控制来讲,它几乎不支持智能家居组件,是典型的小生态产品。

大生态的代表就是小爱同学、天猫精灵、叮咚和哇欧AI音箱。小爱同学以299元的价格杀入智能音箱市场,与小米生态链众多智能硬件产品的联动,让小爱同学有着甚佳的智能家居体验。然而,一个小遗憾就是你现在很难以299元的价格买到它。天猫精灵和京东叮咚,背靠各自平台。天猫精灵兼容阿里智能旗下的诸多产品,大到美的的大家电,小到控客的智能插座,类目非常丰富。叮咚则兼容京东微联旗下的产品,Haier、Honeywell、三星等都是京东微联的合作厂商。天猫精灵和叮咚都构成了各自较为齐全的生态,如果说劣势,那么就是目前这些生态的厂商之间有待磨合,特别是一些比较大的厂商的产品,在兼容和稳定性方面还有一些问题,在体验上还有较大提升空间,但是生态基本上完整了。哇欧家居AI音箱属于后起之秀,来自克路德机器人公司,之所以说它是大生态,是因为它兼容整套海尔的智能家居产品,包括海尔齐全的大家电产品线。小的智能组件研发周期短,可以迅速开发上市,然而齐全的大家电产品线可不是一朝一夕所能搞定的。克路德机器人的哇欧家居AI音箱,是在先有智能家居(有屋虫洞)、智慧酒店(温德姆)、智能健身房(力方体)等具体场景需求后才有的,这也是和另外几个平台不同的地方。克路德机器人属于少海汇生态企业之一,少海汇是一个不同于小米、阿里等传统生态系统的“去中心化”新生态系统。之所以有如此多的场景需求,正是因为少海汇生态圈关注的就是智慧住居产业的场景需求,专攻智能家居,有众多智能家居相关厂商加盟且互相兼容,现在看来具有强大的生命力,有了它的加持,哇欧家居AI音箱的前景应该会不错。

智能音箱漫谈

当然,如果说现在智能音箱产品已经成熟,肯定为时过早。就目前的产品来讲,前途光明,道路曲折。在语义解析、远场拾音、Iot联动、声纹识别、内容和生态圈方面还具有巨大的提升空间。

语义解析方面,目前主流产品只能达到识别相对简单的对话的水平,稍微复杂的语句很难精准的理解意图,这也是为什么有人称智能音箱为“智障音箱”,是下一步要解决的重点之一。远场拾音方面,目前的产品在普通环境下,5米之内都表现良好,但是再大的距离就普通出现识别率的急剧下降,影响体验。声纹识别(VPR)只有少数几款产品能够实现,但是声纹识别作为语音入口重要的身份识别方式,安全意义重大。Iot联动、内容和生态圈三者是互相紧密联系的,也是智能音箱能够广泛应用迅速普及的关键所在。小米、阿里、京东的生态愈加完善,以少海汇为代表的新生态的出现也为行业带来的新的活力,相信不久的将来,智能音箱会真正成为一个不可撼动的入口。

功成不必在我,未来已经到来。智能音箱作为新的入口,已经有了相对成熟的硬件结构,迅速发展的AI支持,展现出了强大的生命力。语义解析、远场拾音等技术迅速突破,Iot联动和内容迅速丰富,以小米、阿里等为代表的各种老生态圈臻于完善,以少海汇为代表的新生态圈活力迸发。不得不说,AI智能音箱是一次深刻的革命,且这革命绝不仅仅是在智能家居领域。


文章评论

共有 51 位网对文章表示很赞! 查看完整内容