半夜自己笑出声？智能音箱“幽灵笑声”技术探密

当你正坐在家里的客厅，突然听到了一个巫婆般的笑声传来，你会怎么做？起身查看是否有人闯入？打电话给朋友？默念阿弥陀佛？其实没有这么麻烦，只要把你家智能音箱的插头拔掉就行了。

几天前，亚马逊的智能语音助手 Alexa 莫名其妙发笑，因为实在太令人发毛，这些案例立刻在社交媒体上快速流传而成了大新闻，人工智能想要跨越恐怖谷（Uncanny Valley）仍然不容易。

图丨恐怖谷理论示意图

其实智能音箱出现一些“搞笑”或“瞎搞”的事件，Alexa 并不是第一次，也不是唯一的一个。之前一名美国电视主播在说明一个小女孩意外通过 Amazon 的智能音箱 Echo 订购娃娃屋的新闻时，随口说了一句“我好爱这名说‘Alexa，给我一间娃娃屋’的小女孩！”，竟然唤醒了许多观众家中的 Echo，集体下订娃娃屋！

德国还有个更好笑的案例，Echo 不知为何自己启动，在午夜大声播放音乐，但因为屋主不在家，被吵得不耐烦的邻居只好报警，警察破门而入才把吵人的 Echo 关掉，真有够兴师动众。另外，小米的“小爱同学”、阿里巴巴的天猫精灵也都曾被国内媒体报道经常答非所问，更不用说乱扯出了名的 Siri。

为什么 Alexa 笑了？

这些“智能”音箱闹出的笑话随便都可以列出个十几件，回到正题，究竟是什么让 Alexa 笑了？

亚马逊官方针对此次巫婆笑事件做出回应，指出主要原因是当用户在说着其他语言时，Alexa 错误听到“Alexa，laugh”（Alexa，笑）这个词，因此亚马逊已经更改指令，以“Alexa，你能笑吗？”取代先前的“Alexa，笑”，同时也替换了 Alexa 的回应，Alexa 会先说，“是的，我可以笑”，之后才会发出笑声，而不是什么都不说就直接大笑。

从亚马逊台面上的解释来看，我们可以合理认为 Alexa 就是把非英语的语言“误听”为英语，然后以为用户在下指令，说得直白点，就是语音识别错误。亚马逊只强调了后续的解决方式，对于发生机器“故障”的原因并未深入阐述，没有一个处理过程是在客户终端上执行，外界也没有办法查看 Alexa 内部究竟发生了什么事，因此究竟是如亚马逊所言的小故障问题，还是阴谋论一点的想法如程序病毒、被黑客入侵，真相只有亚马逊知道，但是，此事件反应出几个问题，以下 DT 君将从智能音箱的现有技术瓶颈，下一步会走往什么方向，以及躲不掉的安全疑虑三个面向来深度讨论。

错误唤醒的比例仍高

语言一直是很复杂的领域，尽管语音识别在近年的发展有很好的突破，各家参与竞赛的分数也不断创高，但是，实际应用在生活上，语音技术显然仍有不足之处，否则就不会把 A 语言误听为 B 语言，而且每个人讲话的口音也不同，同样影响语音识别率，使得智能音箱无法正确识别用户到底在讲什么，未来这个问题非常有可能会被放大，例如听不懂亚洲人讲的英文，进而扯上种族歧视的大问题。

改善语音识别效果，对企业来说是一个持续性的工作，知名的语音识别公司科大讯飞接受 DT 君采访指出，改善语音识别效果主要有三个方式：一是不断优化麦克风阵列声学算法的处理效果，提升处理后的语音质量。二、通过不断收集用户的数据来优化用户的识别模型，甚至做个性化定制模型来优化效果。第三就是通过更好的语音识别建模方式，来实现语音识别效果的提升。

由于智能音箱是联网设备，可以通过空中下载技术（OTA，Over-The-Air）自动升级成最新的算法版本。在第二和第三点部分，目前各家音箱方案的语音识别都是基于云计算，可以通过后台升级用户的识别引擎来实现，不会对用户造成额外的工作负担。

鸡尾酒会效应仍难解

另一个鸡尾酒会效应问题，可说是智能音箱产品都有的问题。什么是鸡尾酒会效应（cocktail party effect）？早在 60 年代，英国心理学家 Colin Cherry 提出这种人类听觉有选择能力的特质，例如在一个派对上，夹杂着众人谈话的声音、音乐声、酒杯碰撞声，但是在这些环境音的干扰下，人类还是可以针对跟自己有关或是注意的声音特别关注，或是当有人喊你的名字，你依旧听得很清楚。

在去年的美国“超级碗”比赛，Google 为推广自家的音箱做了一支广告，强力在比赛期间播放，没想到却换来用户抱怨连连，因为只要当广告人物说出“Okay Google”，用户家中的 Google Home 就不断被唤醒，用户不堪其扰，这就是鸡尾酒会效应问题。像是 DT 君拥有一个 Google Home 设备，当 DT 君在讲电话时，Google Home 也常常自动莫名其妙被唤醒，误以为你在跟它讲话，同样的，iPhone 上的 Siri 也有类似问题，这种“误听”而被唤醒的比例仍相当高。

目前要对智能音箱下指令，多半必须靠近它说话，为“近场”语音交互，但是，在一个吵杂的环境，智能音箱如何识别出是谁在讲话？而且是在“对它”讲话？一堆人都在下指令，到底要听谁的？机器必须知道了，才能对于语音的内容做出反应，但对于这种“远场”语音交互的识别度问题不仅限于智能音箱，也是居家机器人、服务机器人目前遇到的挑战。

国内专攻远场语音交互硬件方案的声智科技创办人陈孝良指出：“鸡尾酒效应依赖现在的技术暂时解决不好，可能还需要 2～5 年的周期，需要一些前沿技术的突破”，他进一步解释，解决鸡尾酒会效应至少需要两个基础条件：一是基本原理和模型的进步，包括了人耳听觉和机器学习研究，二就是海量有效数据的积累，这两个条件都还需要时间。

科大讯飞也指出了类似的看法，“鸡尾酒效应目前解决起来难度仍然比较大，音箱上还不能支持”，讯飞以深度神经网络的语音增强方案在这方面已经有一些进展，不过预计还要 3 年左右的时间才能真的解决鸡尾酒效应。

因此，从解决痛点的角度来看，鸡尾酒效应是一个还有很大开发潜力的市场，也是大企业和初创公司的商机所在。

智能音箱的下一步

虽然智能语音助手在现阶段仍有不够完美之处，但是语音交互的趋势已经十分确立，Future Today Institute（FTI）最新出具的 2018 年前沿科技报告就点名，Siri、Google Assistant 这样的数字语音助手正在变得无处不在，“预测到 2021 年，有超过一半的计算都将通过语音完成，”FTI 创始人 Amy Webb 说。

因此，要改善使用者体验，实现音箱越来越智能是毋庸置疑的，怎么做？DT 君认为有两个方向正在成形，一是个性化、情感人工智能（Emotion AI）的加入，二是声纹识别（voiceprints）的应用扩大。

情感人工智能

个性化这件事在互联网世界已经被应用的十分普遍，电商购物会依据你的购买历史进行商品推荐，社交平台会依照你过往的点击内容，把你可能感兴趣的媒体内容、广告优先投放到你的眼前，甚至是交友软件 Tinder，都使用了个性化功能来推荐用户可能会喜欢的对象。

智能音箱势必也会往这个方向走，可以针对用户的发音习惯、常说的内容，定制优化用户的个性化语音识别模型，让用户的交互成功率越来越高，同时通过用户的交互数据做行为和爱好分析，来针对用户构建用户画像，做个性化的推送。

智能音箱的下一步发展，个性化是第一阶段，那么，情感智能就是进阶版。

情感人工智能也称为情感计算（affective computing），让机器能够侦测、分析、处理和回应人们的情绪状态和心情。“预计在 2022 年之前，你的个人设备将比你的家人更了解你的情绪状态，”知名调研机构 Gartner 研究副总裁 Annette Zimmermann 指出。

用声音做情绪分析，并将其落实在商业应用中，不算是一个新概念，例如把用户与金融业客服人员的通话，让人工智能判断用户的还款意愿，IBM 沃森也有一个客户互动音调分析（Tone Analyzer for Customer Engagement）功能，让人工智能通过人的声音推测出相应的情绪，沮丧、兴奋、礼貌、同情等，让企业打造更好的客服服务。

从 MIT 媒体实验室独立出来、知名的人工智能公司 Affectiva 就是从表情、声音、手势等多维度来研究情感人工智能，联合创始人 Rana el Kaliouby 就指出，当人类已经开始和 AI 产生关系，教会它们回应我们的感觉，就变得至关重要。例如，当一个用户很难过跟苹果 HomePod 说出心里的秘密时，HomePod 应该要能给予安慰。

另外，亚马逊的 Alexa 团队已经开始分析用户的声音，以识别他们的心情或情绪状态，播放不同风格的音乐，并让用户能够愿意跟语音助手进行更长时间的对话，进而发展出更好的情感人工智能。

声纹识别的野心

用户与智能语音助手的沟通不靠触控显示屏，而是利用语音交互，因此用户的声音反而成为非常重要的资料，尤其是声纹被认为具有独特的生物特征，就像人的指纹、虹膜一样，目前采用声纹识别技术的领域多在电信及金融行业，以取代个人密码、PIN 等，而智能手机以及智能音箱是语音交互最直觉化的设备，用于唤醒设备并登录每天使用的服务或应用程序，因此被视为是最有潜力的应用情景。

图｜目前声纹识别的主要应用行业（资料来源：Opus Research）

目前智能音箱已经支持了声纹识别技术，像是天猫精灵基于声纹识别技术，推出声纹购，是第一个商用的声纹购物系统，用户购物、充值时，只需要说出声纹密码，声音识别系统将对身份进行校检，确认是本人后就可完成交易。

除了生物识别之外，声纹识别也是用以改善音箱体验的一项热门技术，不少企业借此自动判断说话人的身份、年龄、性别来实现个性化点播，也能减少音箱被错误唤醒的机率。陈孝良就指出，情绪判断和场景判断也是正在研发的技术，不过这些新的特征稳定性还不够，也包括声纹识别，但是有一点是很明确的，随着产品不断上量，产品技术的迭代也会更加迅速，多数据的融合将让机器看起来更加智能。

图｜亚马逊在今年美国超级碗的广告，强调 Echo 设备不会被广告骚扰，消遣 Google 一番

前面提到了 Google 因在超级碗播放的广告惹恼了用户，到了今年的“超级碗”，Google 的死对头亚马逊就刻意做了一支广告，在 90 秒的广告里不断呼唤 Alexa，而且还对用户喊话：“请放心，你们的 Echo 设备不会被广告骚扰”，摆明了消遣 Google。

为什么亚马逊能如此有信心，原因就在于使用了一种名为“实时声音指纹识别”的技术（Real-time Acoustic Fingerprinting Technology），能分辨哪些声音来自广告、哪些才是用户的真正指令。

其实亚马逊在 2014 年注册了一项“语音指令过滤”（Audible Command Filtering）技术专利，防止 Alexa“在部分有大批观众的电视转播，如大型体育赛事时”被唤醒，采用了两种做法，一是在广告播出前，就先把部分片段传到 Echo，让 Alexa 比较并分辨哪些语音指令才是真实发出，另一种则是让广告发出一种人类听不见、但 Alexa 可以捕捉的信号，告诉它直接忽略这个唤醒指令。

而实时声音指纹技术建立在 AWS 云服务上，当多个设备开始被广吿、广播同时唤醒时，类似的音频会即时串流到 Alexa 的云服务，算法会侦测来自不同设备的音频吻合度，以防止其他设备被唤醒，“动态指纹还不完美，但基于这项技术，有 8～9 成的设备不会因为电视广告而被唤醒。”亚马逊语音识别主管 Manoj Sindhwani 强调。

不过，以声纹识别改善用户使用体验，只能说是前段，其实各家企业都有着更大的野心，医疗照护就是一个新世界，家中的智能音箱不仅可以侦测到你的情感，也可能侦测到与特定疾病相关的特征，包括心理的抑郁症、躁郁症、创伤症候群、或是帕金森病、心脏病等，未来甚至还可能与医疗保费设计挂钩。

亚马逊就与一家以色列初创公司 Beyond Verbal 合作开发一款分析工具，希望通过 Alexa 分析使用者的声音，进而判断其健康状况，像是侦测病患的沮丧情绪，未来甚至还可能诊断疾病，例如侦测心脏病等慢性疾病，另外像是国内一家初创公司逸善舒晨，也是锁定以医疗人工智能+声音做“病理声音”的研究，像是抑郁症。

Rana el Kaliouby 认为，带有情感的语音助手或机器人可用于检测疾病并加强健康行为，不过，她也直言“还有很多工作要做。”特别是，医疗行业不论是在技术导入或验证有效性方面，都采取相当严谨的标准和规范，因此这方面的研究仍在初期的研究阶段，只是 Amazon、Google、苹果等巨头已经大动作切入医疗行业，相信他们的长期研发蓝图里肯定有这一个选项。

安全漏洞：不是闭上眼就没事

“智能”音箱闹出的笑话随便都可以列出个十几件，而有些事恐怕不是好笑而已，例如安全及隐私问题，先不谈这些智能音箱是否 24 小时都在偷听你讲了什么话，甚至是像科幻小说剧情可能谋害你等诸如此类比较阴谋论的想法，因为目前仍难以查证，那就谈一个非常实际、现在就有可能出现的问题：骇客入侵，黑用你的智能音箱来捣乱，乱播音乐吵你、发出笑声吓你，而且音箱定位为智能家庭的中枢，可以跟居家设备整合，所以随意开关你家的电灯、空调也是很容易，甚至是盗用帐号购物、窃取个人资料等。

Alexa 发笑事件被大家关注，多半是因为亚马逊的名气、以及 Echo 是目前智能音箱市占率最高，但在此之前，其实音箱自己笑出来、播音乐的案例就已经发生，存在安全漏洞更是事实。资安公司趋势科技在去年底发布了《针对性攻击的声音》（The Sound of a Targeted Attack）报告，测试了两款音箱：Sonos 的 Play:1（以亚马逊的 Alexa 为核心）以及 Bose 的 SoundTouch，发现暗藏的安全漏洞会暴露用户资料，以及可用于展开攻击的信息，包括阻断服务（DoS）漏洞。

当黑客想要入侵一部主机／一个设备时，会通过一些扫描技术去测试此设备上有哪些通讯埠端口是开启的，也可以使用 Shodan，也就是俗称黑客界的暗黑搜索引擎，Shodan 会定期对各类设备埠号产生的系统旗标信息（Banners）进行审计，进而找出所有连线到网际网络（Internet）上的设备，在 Shodan 上可以找到在特定国家、经纬度、IP 位址范围的网络摄影机、印表机、智能家居设备，当然也有智能音箱，趋势的资安人员也使用了 Shodan，可以看到数千台使用中的 Bose 和 Sonos 音箱分布在哪些国家。

图｜趋势的资安人员使用 Shodan，可以看到数千台使用中的 Bose 和 Sonos 音箱所在地。（资料来源：趋势科技）

趋势科技的测试报告指出，一个很简单的通讯埠开口就能让任何人可以存取设备，取得用户信息，例如用户往往把音箱跟音乐串流服务如 Pandora、Spotify 对接，因此黑客可以拿到你用来注册音乐串流服务的电子邮件地址，以及使用同一网络的其他设备的清单。

图｜黑客可以根据目标的音乐偏好发送定制的钓鱼邮件。（资料来源：趋势科技）

此外，工程师在测试时也取得了音箱所连接的 WiFi 无线基地台的 BSSID 信息，并且利用 Alexander Mylnikov 博客开发的公共地理位置 API，查询这些特定的 BSSID，就能抓出音箱所在的经纬度，再搭配 Google 地图看到大致的地理位置。同时，也能看到设备上进行的活动，例如正在播放的歌曲，甚至是可以远程控制设备。

在掌握了上述的方法后，趋势的测试人员想知道是否可以得知更多的个人信息和居住地区，因此他们随机选择了一个 Sonos 音箱展开近一步测试。在 Shodan 搜索引擎网站上，他们发现科罗拉多州有 6 个对外暴露的音箱，他们随机选了一个，这个音箱连接到 Pandora 帐号，因此取得了注册这个 Pandora 帐号的 Email，接着他们把这个 Email 与 Pipl、Facebook 进行交叉查找，（Pipl 是一个依据公开信息来定位人员的在线搜索工具），也用 FamilyTreeNow.com 网站查看是否可以找到此人可公开取得的身份信息（PII）或地址，他们还真的找到了一些可能性颇高的地址。然后他们再用 SSID 方式查找上网的地点，比对两地是否为同一地。果然，那个地址就映射在 SSID 位置的旁边。

图｜将可能的地址与 SSID 位置进行比对。（资料来源：趋势科技）

当然，这个测试调查是来自白帽黑客，所以在测试结束后，趋势已与 Sonos 联系，修复了安全漏洞，也不会透露测试个案的身份，但是，这些看似很小的漏洞，其实只要利用网络上各种公开的查找工具，就可能演变成很大的问题，除了知道你家地址，隐私遭侵犯，甚至引发危及人身安全的社会事件。

可惜的是，目前看来，智能音箱的企业似乎刻意不谈论这方面的问题，也鲜少看到他们主动强调资安的防护方式，多半是资安公司发现了漏洞，智能音箱企业才发布补丁，这就像是明知道高风险可能发生，但大家都蒙着眼似的看不到，因此，DT 君想提醒消费者一件事，一定必须要有危机意识，说白了，智能音箱是这些大企业为了让你习惯依赖他们的手段，但此类产品给予用户的控制权其实很小，不像个人计算机能根据自己的喜好进行修改和监控，可以使用诊断软件、活动监视器，或者尝试找出 bug 在哪里，为其安装修补程序，因为企业若不再开始重视资安问题，下次你的智能音箱再大笑出声，很可能不再只是一场误会而已。

声明：本文来自DeepTech深科技，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

半夜自己笑出声？智能音箱“幽灵笑声”技术探密

欧盟发布《通用人工智能业务守则》初稿介绍

国家卫健委办公厅印发《卫生健康行业人工智能应用场景参考指引》

美众议院AI工作组拟推行宽松的人工智能立法