本文来自微信公众号:Founder Park,作者:Nico、万户,题图来自:unsplash
本文来自微信公众号:Founder Park,作者:Nico、万户,题图来自:unsplash
十年前,2014 年 11 月 6 日,Alexa 发布,对贝佐斯来说,这个项目代表着未来。
名字来源于《星际迷航》中的“计算机”,语音控制的全能 AI 助手。
“从科幻小说的早期开始,人们就梦想着能够拥有一台可以自然对话的计算机,实际上可以和它交流并让它为你做事。如今,这个梦想终于实现了。”贝佐斯说。
两年时间,智能音箱 Echo 进入 500 万个家庭,现在美国市场销量已经超过 4000 万台。
但很多想象中它能做到的事,Alexa 没有做到。
一、十年了,Alexa 还只是个智能闹钟
Echo 智能音箱在美销量超过 4000 万台,Alexa 每周处理全球数十亿条命令。
现在的 Alexa,依旧在做它最基础的事情:播放音乐、提供天气信息、定闹钟。你可以用 Alexa 可以控制家中的灯光、打电话给妈妈,或者提醒你丢垃圾。
但正如一位前 Amazon 员工所说:“虽然雇了一万多人,结果我们做的还是一个智能闹钟。”
这让人有些失望。Alexa 原本有着巨大的潜力。尽管它的功能非常强大——特别是在无障碍技术和老年护理等领域,对于很多人来说它变得不可或缺——但它现在基本上还是家里的一个遥控器。现在,家里每个房间都有 Alexa 智能扬声器,但它并没有让生活变得更便利。
虽然这些年 Alexa 加入了成千上万的功能,但我仍然不会依赖它做一些比执行计划中的命令、将牛奶加入购物清单,或者告诉我小鸡能不能吃葡萄之类更复杂的事。
如果有什么变化,那就是在语音助手诞生 10 周年之际,Alexa 最初的梦想似乎变得更加遥不可及了。
当 Alexa 首次推出时,它是多么突破性。不同于苹果的 Siri 被束缚在手机里,或者微软的 Cortana 被局限在电脑上,Alexa 走出了自己的路,搭载在 Echo 这款世界上首个语音激活扬声器里。它的远场语音识别技术,凭借七个麦克风组成的阵列提供支持,让人惊艳。你可以在房间的任何地方对着 Echo 喊话,那个蓝色光圈几乎总是会亮起,表示 Alexa 已经准备好为你讲笑话或者设置定时器了。
Amazon 进入智能家居领域,为我们揭开了“星际迷航”般的未来的序幕。尽管有些玩笑话和百科全书式的知识不太靠谱,但 2016 年发布的 Alexa 智能家居 API,之后 2017 年 Echo Plus 加入了 Zigbee 无线电,使得 Alexa 可以连接并控制我们家里的各种设备。
坐在沙发上让 Alexa 关灯,或者躺在床上让温控器升温,感觉就像生活在未来。我们终于在家里有了一款类似《星际迷航》中的“计算机”的设备——Amazon 甚至让我们称它为“计算机”(Computer)。
回头来看,Alexa 其实为现代智能家居铺平了道路。简单的语音控制让物联网(IoT)变得更普及,它把技术带入家庭,而不是让它被困在复杂的设备里。加上 Amazon 的开放式智能家居策略——在其他公司都推出封闭生态系统的时候——也促进了一波新消费级智能设备的崛起。Nest、August、Philips Hue、Ecobee、Lutron 和 LiFX 等品牌的成功,部分功劳要归于 Alexa 的易用性。
然而,围绕 Alexa 的生态系统发展得太快了。任何人都可以为 Alexa 开发“技能”,几乎没有什么限制。虽然有些技能简单有趣,但很多功能不稳定,甚至需要特殊的词句才能激活。最终,这导致了一个不稳定、常常令人沮丧的使用体验。
二、Alexa 的最大问题,是用户要学会怎么跟 Ta 说话
Amazon 通过不断扩大的 Echo 硬件产品线来掩盖 Alexa 没什么智能的问题。
每年都有新款智能音响发布,Alexa 也逐渐进入时钟和微波炉等设备中,还推出了多种新形态,试图推动用户将 Alexa 带到户外——比如耳机(Echo Buds)、戒指(Echo Loop)、眼镜(Echo Glasses)和车载设备(Echo Auto)等。
然而,这些设备大多给人留不下印象,对提升 Alexa 的功能几乎没有帮助,反而让 Amazon 背上了亏损。今年,《华尔街日报》报道说,Amazon 在设备部门的损失已经高达数百亿美元。
即便采取了这种“什么都试试,看哪样有效”的策略,Amazon 还是没能突破那个第二个必不可少的形态。2017 年,它推出了智能显示器——一种带触摸屏的 Echo,可以进行视频通话、查看安防摄像头,甚至显示信息,而不只是简单通过语音告诉你。但由于处理器速度慢、触摸屏不灵敏,且广告过多,智能显示器并没有真正提升 Alexa 的核心功能。
现在,很多用户都抱怨 Alexa 在核心功能上变得更差了。大家买 Echo 设备,主要是因为它比其他竞争产品便宜,并且能做一些 Alexa 在 2014 年就能做的事:定闹钟、查天气、听音乐。
对于这种价格最低可至 18 美元的设备,人们的期待也并不高。
这么多年过去了,和 Alexa 对话依然是最大的难题。而且是我们学会了如何跟 Alexa 说话,而不是 Alexa 学会了怎么和我们沟通。例如,我家里连接的厨房水龙头,还需要我说:“Alexa,告诉 Moen(水龙头品牌)给我倒 2 杯热水。”正如我丈夫所说,如果 Alexa 真那么“聪明”,它应该知道我正在厨房水槽前,直接按照我的要求做,而不是让我记住这些复杂的指令。
还有就是,Alexa 遇到了技术瓶颈。在科技界,有一个普遍的预期,那就是技术会持续进步。但 Amazon 并没有专注于提升核心技术,而是依赖第三方开发者让 Alexa 拥有更多的功能,集中资源将语音助手推向更多设备,并让它能控制更多的东西。
随着越来越多设备支持 Alexa,Amazon 在平台上增加了更多功能,但也带来了管理、控制和使用这些设备的难度。语音控制非常适合简单的命令,但如果没有更方便的方式与 Alexa 互动,很多新功能对于大多数用户来说就变得毫无意义。
Amazon 推出了 Alexa Routines(Alexa 常规任务)作为解决方案,帮助用户整合可以用 Alexa 控制的各种设备和功能,但这需要你花时间在应用里进行设置,并且不断调试设备和它们之间的连接。
每次发出命令后听到“您的‘2 灯’没有响应,请检查网络连接和电源”这种提示,真的让人非常沮丧。而每个月花上几个小时来配置和解决智能家居的问题,这并不是 Alexa 当初承诺的体验。
一个智能计算机应该能为你做的事情,结果现在却成了负担。
三、Alexa Skills:比 OpenAI 早十年的构思,但失败了
十年过去了,Alexa 依然主要被用来播放音乐、问问题和看天气。这很大程度上是因为,尽管 Amazon 让 Alexa 在各种设备和家庭中普及开来,但始终没能让开发者真正关注它。
Alexa 本来是没有应用商店的。相反,它有“技能”(skills),Amazon 希望开发者通过这些技能让 Alexa 连接到新的功能和信息。开发者不需要在操作系统上搭建自己的应用,而是要为 Alexa 开发新的功能。这个区别虽然细微,但至关重要。
我们手机上的应用大多是孤立的体验——Instagram 和 TikTok、Snapchat、日历应用或 Gmail 各自独立,互不关联。这种方式对于 Alexa 或任何其他成功的助手都不适用。如果 Alexa 知道你的待办事项,但却不知道你的日程安排;它知道你喜欢吃什么披萨,但却不知道你的信用卡信息,那它能做的事情就非常有限。Alexa 需要获得所有必要的信息,并且能调用各种工具,才能帮你完成任务。
在 Amazon 的理想世界里——那里“环境计算”无处不在且完美无缺——你只需要向 Alexa 提问或下达指令:“帮我找个有趣的活动做做。”“帮我预定下周去纽约的火车票。”“帮我了解一下深度学习。”Alexa 会访问所有必需的应用和信息源,而你不需要担心这些细节;它会根据需要处理并为你提供答案。虽然关于如何实现这一点的问题非常复杂,但这是 Amazon 的整体目标。
“Alexa Skills 让开发者能快速、轻松地创建语音驱动的体验,为开发者和品牌与客户的互动打开了全新的方式,”Amazon 的发言人 Jill Tornifoglio 在声明中说。她表示,客户每年使用这些技能的次数达数十亿次,并且随着公司拥抱生成式 AI,“我们对未来充满期待。”
回头看,Amazon 的这一想法几乎是完全正确且超前的。
多年后,OpenAI 和其他公司也在围绕聊天机器人构建自己的第三方生态系统,聊天机器人就是互联网交互界面的一种新形式。但尽管 Amazon 对 AI 革命的预见非常精准,它却从未搞清楚如何让技能真正发挥作用。它始终未能解决开发者面临的根本问题,也未能突破用户界面的难题,更没有找到一种方法,让用户意识到他们的 Alexa 设备其实能够做很多事情,只要他们愿意去问。
Amazon 确实尽了最大努力让“技能”成为现实。
公司不断为开发者推出新工具,当他们的技能被使用时,为之提供 AWS 积分和现金奖励(尽管最近已经停止了这种做法),并尽力让技能的开发变得几乎毫不费力。从某种角度来说,这些努力是有回报的:Amazon 表示,平台上已经有超过 160 000 个技能可供使用。虽然这个数字远不及智能手机上的数百万个应用,但依然是个相当可观的数字。
然而,发现和使用这些技能的界面一直都是一团糟。举个简单的例子:如果你让 Alexa 帮你点披萨,它可能会告诉你它有几个技能,并推荐 Domino's。你回答“好”。“这是 Domino's。”Alexa 说。然后又过了一会儿,Alexa 又说:“这是 Domino's 技能,由 Domino's Pizza,LLC 提供。”
再过一会儿,“要链接你的 Domino's Pizza 账号,请到 Alexa 应用的技能设置中去。我们需要你的邮箱地址才能进行客人订单。请在 Alexa 应用中开启‘邮箱地址’权限。”这时,你必须找到一个你可能根本没有在手机上下载的应用里的设置;直接去 Domino's 官网或打个电话不是更简单吗?
如果你已经知道自己想用的技能,情况会稍微好些。你可以说“Alexa,打开 Nature Sounds”或“Alexa,启用 Jeopardy”,它会打开对应的技能。但如果你忘记了那个技能的名字,像“Easy Yoga”这个名字之类的,单纯让 Alexa 开始一次瑜伽训练就没那么优秀的反应了。
这种系统的问题到处都是。当你启动了一个技能,你必须明确地说“停止”或“取消”才能退出并使用其他技能。你不能轻松地在技能之间切换——比如我想检查披萨的价格,但 Alexa 根本不允许我这样做。而也许最让人沮丧的是,即使你已经启用了某个技能,你仍然得专门提到它。比如说“Alexa,让 AnyList 把意大利面加入我的购物清单”,这并不是在和一个全知助手进行无缝互动;这相当于得学习过计算机那种特别具体的语言才能正常使用它。
四、即使是成功的 Skills 也只能靠广告挣钱
最终,事实证明,最受欢迎的 Alexa 技能有两个共同点:它们通常都是简单的问答游戏,并且大部分是由一个叫做 Volley 的公司制作的。从 Song Quiz 到 Jeopardy,再到《谁想成为百万富翁》以及《你比五年级生聪明吗》,Volley 是其中一家真正懂得如何让技能发挥作用的公司。Volley 的联合创始人兼 CEO Max Child 表示,将你的技能展示给用户是最重要也是最困难的部分之一。
“我认为 iOS 和 Android 应用商店如此成功的一个被低估的原因就是 Facebook 广告太强大了。”他说。通过精准广告投放到应用安装的流程已经被完善了多年,而语音助手却没有类似的流程。最接近的可能就是在人们询问 Alexa 能做什么时插入广告,但这与信息流广告和社交媒体刷屏的效果相比差得远。“因为没有那种精准的营销,你只能做广泛的营销,只能做广泛的游戏。”因此,像《Jeopardy》和《Millionaire》这样的游戏成为了大众化的品牌,几乎适合所有人。
Volley 的盈利方式之一是通过订阅。例如,完整版的《Jeopardy》每月收费 12.99 美元,像许多现代订阅服务一样,订阅比取消要容易得多。这也是为技能赚取收入的少数途径之一:开发者可以在某些技能中插入音频广告,或者直接要求用户填写信用卡信息,就像 Domino's 做的那样,但让语音优先的用户拿起手机翻阅设置,实在是个很高的门槛。广告只有在足够大规模时才有用——曾经有段时间,很多媒体公司认为“闪电简报”会成为一个热门,但并没有发展成预期的那样。
顺便提一下,这些 Alexa 面临的挑战并不特别。移动应用商店也面临类似的投放难题、货币化难题、亟待优化的订阅模式等。只不过在 Alexa 这里,解决方案本应是如此引人向往:你不需要,也不应该需要应用商店。你只要说出需求,Alexa 就能帮你搞定。
十年过去,看来一个无所不能的全能语音 AI 可能确实难以实现。这几乎成了一个悖论:
如果 Amazon 能够做到一切都无缝和快速,你甚至不需要知道自己在和第三方开发者互动,披萨也能神奇地出现在你家门口,那样就会带来巨大的隐私问题,同时也引发人们对 Amazon 如何选择服务提供商的质疑;
如果让用户自己去选择所有这些默认设置,那就意味着每一个新用户都得做大量繁琐的“设置”工作。那就会破坏 Alexa 最初的简洁和吸引力。过度的简化和抽象也会成问题。
五、大模型可能是 Alexa 真正成功的唯一希望
不过,目前我们正处在一个转折点。十年之后,Alexa 正在发生两方面的变化。一方面是好消息,另一方面可能是坏消息。
好消息是,Alexa 不再仅仅是语音的,甚至也不再是以语音为主的体验——随着 Echo Show 和 Fire TV 设备的普及,更多人开始在有屏幕的设备旁边与 Alexa 互动。这可能会解决很多互动中的问题,并为开发者提供新的展示方式,将他们的技能呈现给用户。当 Alexa 可以显示内容时,它能做的事情就会更多。
另外一个好消息是,技术正在逐步跟进。大型语言模型和生成式 AI 有望让我们与 Alexa 的对话变得更加自然。去年,Amazon 宣布正在开发一个全新的基于大型语言模型(LLM)驱动的 Alexa,这个 Alexa 将更加主动、对话性更强,而不是像现在这样单一的命令式。一个更智能、AI 驱动的 Alexa,能够真正理解你想做什么,不再需要那些笨拙的语法来使用技能。它能够理解更复杂的问题和多步骤的指令,并代表你使用技能。
这无疑是一个很大的进步。但尽管生成式 AI 有潜力让语音助手变得更聪明,它并不是解决一切的灵丹妙药。大型语言模型解决了“理解语言”的问题,但它们现在还无法在理解语言的基础上做出实际行动,更不用说 LLM 幻觉可能带来的风险了。
要让 Alexa 真正变成像“计算机”一样的存在,它需要具备上下文感知。为了高效工作,一个无所不知的语音助手必须全面了解你、你的家庭以及家里所有人和设备的情况。这是个相当复杂的任务。虽然 Echo 音响搭载的超声波技术和智能家居传感器可以提供一些背景信息,但 Amazon 在一个关键领域明显落后于竞争对手,那就是:你。
与 Google 和 Apple 不同,Google 和 Apple 通过智能手机、日历、邮件甚至互联网搜索,能够获取你的个人数据。而 Amazon 除了知道你在它的商店买了什么东西,或者你允许它获取的某些数据外,基本无法深入了解你的私人生活。而且,Amazon 在隐私保护方面的失误也让许多人对它失去了信任。
不过,Google 和 Apple 在智能家居方面仍然没有占领市场主导地位,虽然它们也在积极进军这个领域,但 Alexa 依然有着不小的先发优势。据 Amazon 表示,“新 Alexa”可以完成通过列出任务创建的多步骤操作。再加上你家里人的信息、他们所在的位置以及他们需要做的事,Alexa 就可以通过一个简单的命令来完成类似以下的任务:
Alexa,提醒我儿子不要忘了他的科学项目;他离开时设置闹钟。下午 4 点解锁后门给水管工进来,5 点再锁上。下午 6 点预热烤箱至 375 度,如果我晚了,自动调整时间。
这种功能将为 Alexa 带来全新的实用性,甚至可能足够支撑 Amazon 实现收费,这也是它计划中的一部分。
尽管去年表示即将推出一款由 LLM 驱动的助手,但我们至今没有再听到任何后续消息。Amazon 今年甚至跳过了它的年度硬件发布会,通常这场发布会上会展示数十款新的 Alexa 及兼容 Alexa 的设备和服务。据报道,这很可能是因为 Amazon 离实现它所承诺的“新 Alexa”还差得很远。
Amazon 必须完成对 Alexa 的重塑,否则 Apple 和 Google 将会很快赶超它。
2014 年,Amazon 为家庭语音控制打下了基础,在过去十年里也为智能家居的发展铺平了道路。如今,Alexa 是最受欢迎的智能音响语音助手,掌握着美国市场三分之二的份额。而在家庭之外的移动设备上,Google 的 Assistant 和 Apple 的 Siri 则占据了主导地位。随着这两家公司加大在智能家居领域的投入,并逐步将 Apple Intelligence 和 Gemini 等智能技术带到家居产品中,Alexa 的主导地位或许会面临挑战。
实现一个由生成性 AI 驱动、具备上下文感知能力的智能家居并不容易,充满了各种挑战,但凭借其丰富的经验和积累,Amazon 似乎是最有希望实现这一目标的公司——前提是它能够克服自身的障碍。家庭是科技的最后疆域,现在是时候了,Alexa 需要向前迈出勇敢的一步,去开创语音助手的全新时代,真正成为智能助手。
也有证据表明,Amazon 在 AI 领域可能有所滞后,插入一个语言模型也不一定能让 Alexa 瞬间变得非常强大。(即使是最好的 LLM,它们在完成这些任务时依然感觉差强人意。)但即便如此,这也更让我们关注一个更大的问题:虚拟助手到底能为我们做些什么?我们又该如何让它们帮忙?
答案理应是“任何你想做的事”,以及“你喜欢的任何方式”。这就意味着需要大量开发者为 Alexa 赋能。而这也需要 Amazon 提供一个足够有价值的产品和商业机会,值得他们去努力。
六、Alexa 坟墓:那些死掉的 Echo 硬件产品
The Verge 还梳理了 Amazon 推出的一系列失败/停产的 Echo 硬件产品,从摄像头到微波炉,没错,微波炉。
1. Echo Look
Echo Look,亚马逊最奇特和最具争议的 Echo 设备之一,它可以捕捉到用户穿着各种服装的全身照片和视频。售价 199.99 美元,于 2020 年停产。
2017 年没有人需要它。现在没有人需要它。
2. Amazon Tap
Tap 是亚马逊第一款将 Alexa 与电源插座断开连接,但需要连接 Wifi 的智能扬声器。2016 年推出,2018 年停产,售价 130 美元。
亚马逊应该复活它吗?是的,并非所有设备都需要始终监听。
3. Echo Buttons
Echo Buttons 是新“Alexa 小工具”系列中的第一款,是一款无线冰球形状的蜂鸣器,可用于通过 Echo 智能扬声器玩单人或多人益智游戏。售价 19.99 美元,于 2017 年首次亮相,但从未真正作为游戏设备流行起来,几年后停产。
亚马逊应该复活它吗?不,我们有更好的游戏方式。
4. Echo Spot
Echo Spot,一个 2.5 英寸的圆形屏幕,可用于视频通话,但它最好作为床头柜上的智能闹钟。但也可以为那些有隐私问题的人禁用摄像头。它在 2019 年停产,但在 2024 年重新推出了没有摄像头的 Echo Spot。
亚马逊应该复活它吗?它已经死而复生了。
5. Echo Connect
2017 年,Echo Connect 问世,几年后停产。它是一个将 Echo 的通话功能扩展到实际的电话号码的设备,而不仅仅沟通 Echo 设备。当插入电话插孔时,这个黑色的小盒子将 Echo 智能扬声器变成了可以拨打包括 911 在内的固定电话号码的扬声器。
亚马逊应该复活它吗?是的,如果只是为了我们的祖父母。
6. Echo Plus
2014 年最初推出,更新版本发布于 2018 年,最终于 2020 年停产。Echo Plus 包括一个经过重新设计的扬声器,并希望成为一站式智能家居中心。支持 Zigbee 但不支持 Z-Wave。
亚马逊应该复活它吗?不,现在有更好的智能家居解决方案。
7. Echo Wall Clock
2018 年发布的 Echo 挂钟没有麦克风,而是被设计成 Echo 智能扬声器的配件,使用一圈 LED 显示当前时间和运行计时器的进度。亚马逊后来与迪士尼合作推出了米老鼠版的时钟,而 Citizen 则推出了替代设计。
亚马逊应该复活它吗?不,它的用处有点太有限了。
8. AmazonBasics Microwave
尽管它没有自己的麦克风和扬声器,但售价 59.99 美元的 AmazonBasics Microwave 旨在连接家中现有的 Echo 设备,这样你就可以通过语音让 Alexa 用微波炉加热土豆或一袋爆米花,而无需浏览烤箱上的烹饪预设菜单并且在闻到烧焦味道时用语音命令停止。首次亮相四年后,微波炉停产。
亚马逊应该复活它吗?没有,但我们会带一个配备 Alexa 的空气炸锅。
9. Echo Input
Echo Input 是一个小型冰球形状的加密狗,它使用音频线或蓝牙将音乐流功能和对亚马逊 Alexa 的访问带到现有的扬声器和音频设置中。于2018 年首次亮相,但考虑到其他 Echo 产品也可以连接到现有的扬声器,Input 是多余的,最终停产。
亚马逊应该复活它吗?不。
10. Echo Link and Echo Link Amp
Echo Link 和 Echo Link Amp 提供了更高质量音频流的音乐服务。199.99 美元的 Echo Link 具有更多的输出选项,用于连接到音频系统的接收器或放大器,以及它自己的音量旋钮。299.99 美元的 Echo Link Amp 还内置了一个 60 瓦的放大器,可以直接连接到扬声器。但它们在几年内就停产了。
亚马逊应该复活它吗?不,买一台 Sonos。
11. Echo Dot with Clock
到 2019 年,紧凑型 Echo Dot 已成为亚马逊上最畅销的产品之一,带时钟的 Echo Dot 有一个四位数的七段 LED 显示屏,可获得时间、天气和计时器等信息。2020 年更新为球形设计,2022 年更新为改进的 LED 点阵显示器。带有时钟的 Echo Dot 于 2024 年停产,取而代之的是具有全彩 LCD 显示屏的 Echo Spot 的复兴。
亚马逊应该复活它吗?是的,并非所有设备都需要屏幕。
12. Echo Loop
亚马逊的 Echo Loop 智能戒指于 2019 年首次亮相,是一款小型可穿戴 Echo 智能扬声器。用户可以用手指与 Alexa 进行交互。尽管 Echo Loop 允许离散交互,但它的电池寿命有限,价格昂贵,为 179.99 美元,而且它的扬声器有时太安静而无法真正听到。一年后,亚马逊停止了 Echo Loop。
亚马逊应该复活它吗?不,智能戒指还有更好的用途。
13. Echo Flex
2019 年首次亮相的 Echo Flex 售价 24.99 美元。这款微型智能扬声器可以直接插入墙上的插座,其功能可以通过模块化配件进行扩展,包括夜灯、运动传感器和数字时钟。声控智能助理只有在离你足够近的地方才能听到你的声音。最终于 2023 年停产。
亚马逊应该复活它吗?是的,但集成了模块化附件的所有功能。
本文来自微信公众号:Founder Park,作者:Nico、万户
支持一下 修改