No.10

大模型优质应用推荐

主理人:
本期「洞察」专栏分析智能手机将如何被大模型影响和定义,这可能是新一场大规模技术社会实验的开始。

「应用」专栏首先分享 Google Bard 新特性,并将整理、推荐一组可快速上手使用的大模型优质应用。

接下来,欢迎和我一起探索关于数字工具的所有可能。

洞察·流程

大模型定义智能手机的下一个方向

最近有两个新闻可以放在一起来看:

· Google 在 I/O 大会表示,已经在三星最新的智能手机上测试运行了 PaLM2 模型,效果还不错;

 

· OPPO 宣布解散旗下的手机芯片公司「哲库」;

 

与上述新闻并行的一则行业动态:根据咨询公司 Counterpoint 的数据,2023 年第一季度全球智能手机出货量同比下降 14%,环比下降 7%。

 

 

可以预见的是,今年二季度的数字会更差。

由此也可以理解,为何 OPPO 会如此果断砍掉芯片产品线,当出货量获得的收益与芯片成本之间的差距越来越大,「改正错误越早越好,多大的代价都是最小的代价」,段永平的这句评价颇为恰当。

Google 的举措则展现出智能手机的一个新方向:基于大模型带来的各种能力,重新定义智能手机的使用方式。这也是我在 3 月份一期会员通讯所谈到的观点,我在当时写道:

……智能手机与大模型的结合,包括但不限于通过手机运行大模型、直接将大模型的能力集成到 iOS 或 Android 里,都将赋予大模型更大的应用场景,也将重塑智能手机的使用体验:

 

· 利用本地设备运行大模型,能够确保重要数据不上云,可以实现更好的隐私数据保护;

 

· 基于本地设备的硬件能力,可以让大模型的调取变得更快,无需过度关注网络连接状况;

 

· 你可以将智能手机上的大模型看作一类垂直模型,用户设备上的数据就是它的训练数据,在自然语言交互的帮助下,将带来更具个性化的智能手机使用体验;

 

而随着大模型领域的技术创新和场景迭代越来越快,「智能手机+大模型」带来的可能性也越来越多。一方面,利用 Meta (被迫)开源的 LLaMA 模型,已经有人成功将简化版本的模型移植到 Pixel 6a,另一个项目 MLC 也在尝试利用移动设备本地的计算能力,离线运行大模型。

此次 Google 集成到智能手机上的模型是 PaLM2 的最小版本「Gecko」,每秒可以处理大概 20 个 Token,差不多相当于 15 个英文单词,这个能力基本可以应对诸如邮件回复自动建议之类的场景。鉴于 Google 拥有众多手机应用场景,从邮箱应用到办公软件再到搜索、浏览器,我们有理由相信,大模型驱动的手机应用创新速度会越来越快。

其次,大模型对于智能手机的影响,重点并不是文本,而是语音或影像领域。与桌面设备不同,智能手机拥有丰富的交互入口,语音输入、相机输入(你完全可以将手机相机作为一类「输入法」)构建起了一个多模态交互的「标准设备」。

想象一下:当摄像头捕捉的图像可以实时变成可检索、可理解的文本,原本略显鸡肋的图像搜索是不是会迎来重生?而当手机上的「多模态模型」能够快速标记、分析用户刚刚拍摄的视频,并给出修改建议,这对于大量视频编辑应用、视频工作者来说又意味着什么?

第三,我们很难奢望仅仅依靠一部智能手机上的算力就能拥有媲美 ChatGPT 的模型能力,未来很长一段时间里,「云+端」会成为智能手机运行大模型的标准模式,一如现在智能手机上图像分类或识别应用一样。

差不多四年前,我曾将当时 AI 技术——语音、计算机视觉——和智能手机的结合看作是一场「史无前例的技术社会实验」。彼时,全球 53 亿人口里,智能手机的用户已经高达 40 亿,远超 PC、平板用户:

 

 

这也意味着,智能手机才是这个星球上人机交互的主要工具,甚至对于某些地区的用户而言,智能手机是唯一的计算工具。如今四年过去了,这个星球早已不同,智能手机却依然是现代人口袋里的一把「武器」,而以大模型为代表的新技术,还将继续与智能手机相结合,继续这场「大规模技术的社会实验」。


应用·发现

「AI」无疑是上周 Google I/O 大会的关键词,这其中 Google Bard 的更新多少被淹没在其他「重磅发布」的新闻里,这里分享几个值得关注的特性:

· 用户与 Bard 对话过程的答案可直接导入 Google Doc 或 Gmail(如下图所示),而且能够保留原有格式,非常方便;

 

· 新增日语和韩语两种语言,目前支持三类语言(还有英语);

 

· 进一步优化「文本摘要能力」,这应该归功于新一代大模型 PaLM2 的能力提升;

 

在回答问题时,会为用户提供回答的来源,这一点和 Bing 类似;

 

 

当然还有一项重要更新,Bard 已经取消了「排队机制」,用户只需登录 Google 账号,访问这里即可体验到 Bard 带来的新体验,你也可以在这里查看 Bard 最近的新特性。

我看到网上很多「Bard 比 ChatGPT 如何好」的文章,这些内容有一定的误导性,在我看来,Google Bard 对标的是微软 Bing,两者都是可以联网——能够抓取最新互联网数据并且提供信息来源——的搜索产品。

与 Bard 或微软 Bing 类似的还有几个产品,比如You.comPerplexity 等,前者整体体验一般,后者是我近期使用较多的「自然语言搜索引擎」。

Perplexity 拥有强大的跨平台能力,你可以通过以下途径获取不同平台的应用:

    · iOS 应用

    · Android 应用(内测中);

    · Chrome 浏览器插件

基于一个账号,用户能够实现在不同设备上的数据同步,Perplexity 现在提供几个不同维度的搜索,如下图所示,用户可根据需要灵活选择:

 

每个线程里的回答都提供了链接来源,便于用户快速查看:

 

 

与 Bard 同时取消「排队」的还有 ChatGPT 插件功能,根据 OpenAI 的说法,本周一开始,插件功能将向所有订阅 ChatGPT Plus 的用户开放,「华尔街见闻」梳理了目前 70 款插件:

 

 

对于绝大多数生活在中国地区的用户或开发者来说,订阅 ChatGPT Plus 是一件极具挑战性的事情,这也是我一直推荐普通用户——比如我——使用诸如应用 Poe 之类大模型集成服务的原因所在。

上周,应用 Poe 适配 Anthropic 公司的新能力,正式发布「Claude Instant 100k」机器人,简单来说,用户可以将一本普通英文小说一次性发给这个机器人,然后开始提问,只要整个交互过程中的字符控制在 75000 个英文单词(大约 15 万汉字)以内,就可以一直「聊」下去。

用户需要订阅 Poe 高级版本才能使用「Claude Instant 100k」机器人,现阶段每月只有 100 次交互额度,你可以选择每月 19.99 美元或每年 199 美元订阅这项服务,同时还将获得每月 600 次 GPT-4 和 1000 次 Claude+ 的使用机会。

除了 Poe 之外,我还推荐以下两个免费而简单的大模型集成服务:

   · ForefrontAI:你可以通过创建 Bot 的方式构建灵活对话,支持 GPT-3.5 和GPT-4,能够满足文本交互和文本生成图像等需求;

 

   · Slack 里的 Claude:如果你使用 Slack,不妨把这个机器人添加到「工作区」,然后可随时和它对话,就我个人的体验来说,Claude 的能力丝毫不逊色于 ChatGPT;


应用·更新

关注一组近期重要的应用更新:

· 苹果发布 iPad 版本的 Final Cut Pro 与 Logic Pro,两款产品将于下周正式上架销售,均采用订阅制,中国区的价格为 38 元/月或 380 元/年,你可以在苹果官网详细了解这两个产品;

 

· 随着 Google 首款折叠屏手机的发布,一大批 Android 应用相继发布新版本,包括 Netflix、亚马逊 Kindle、Zoom 等应用已经适配了折叠屏幕,如果你也有其他厂商的折叠屏设备,不妨关注一下这组更新

 

· 图像编辑应用 Vsco 推出 Pro 会员,在原来 Plus 会员的基础上,Pro 会员的权益主要是自定义滤镜、网页版(还未上线)以及专属客服通道等,你可以通过 VSCO 官方博客详细了解此次更新;


系统·硬件

苹果。WSJ 的独家信息称,苹果仍将在下月的 WWDC 上发布首款 XR 设备,但发布并不等于发售,预计「今年秋季」才能向用户交付,而且供应链的信息进一步显示,交付时间依然存在不确定性。

其次,这款设备将采用混合现实技术,允许用户在虚拟世界和物理世界之间切换,前 Oculus 创始人 Palmer Luckey 对该设备的评价是「So Good」。

不过,如果按照这样的节奏发布 XR 设备,或许将改变苹果的产品策略,过去很长一段时间里,苹果会为一款新产品准备足够长的时间,一般会在系统、软件生态以及硬件供应链方面准备充分的情况下才会正式发布产品,现在距离 WWDC 还有三周时间,让我们拭目以待。

今年 WWDC 另一个看点是苹果如何跟进当下火热的大模型(或者说生成式AI),Information 披露的消息称,苹果内部对 Siri 发展情况非常不满,而目前多方消息显示苹果不会为 iOS 17 推出重要更新,或许我们今年不会看到苹果在 AI 方面的创新。

历年 WWDC 也是苹果向社会——特别是监管机构——展示 App Store 是创新而不是垄断的场合,今年苹果也公布了一组小型开发者(年收入少于 100 万美元且应用下载量不到 100 万次)的数据

· 在 2022 年,应用商店上超过 90% 的开发者都属于小型开发者。

 

· 在 2022 年,近 80% 的小型开发者活跃在多个平台上,且约 40% 的小型开发者的应用下载量来自于他们所在国家以外的用户。

 

· 在 2020 年活跃的小型开发者在 2022 年的应用商店收入增长了 71%。

 

· 在 2020 年活跃的小型开发者中,健康与健身、运动和生活方式类应用在过去两年里收入增长了一倍以上。

 

在「全球无障碍宣传日」前夕,苹果展示一系列面向特殊人群的系统新特性,涵盖认知、听觉、视觉等多个方面,旨在进一步提升特殊人群使用苹果设备的便利性,苹果并未透露新特性发布的具体时间。

Google。上周的 Google I/O 大会还有几个没有太大悬念的硬件产品,比如首款折叠屏手机 Pixel Fold、Pixel 7a 等。

我个人并不热衷折叠屏幕的设备,因为这种形态的产品,更像是一种为了创新而创新的举措。的确,折叠屏带来了更大的屏幕面积,但用户在「更大屏幕面积」上到底能做什么呢?本期提到了多家应用开发商为 Pixel Fold 推出适配软件版本,但这些应用依然是「手机应用」,就像大屏幕的 iPad Pro 只能运行 iOS 应用一样,展开折叠屏幕的用户,依然是在使用适合大屏幕的「手机应用」。

而此次 Pixel 7a 倒是有一些惊喜,(相比于 Pixel 6a)更好的屏幕和相机模组,以及继续保持的单手握持尺寸,都让这台设备拥有更好的市场,推荐这篇评测,在硬件细节之外还有一些关于 Google 手机战略的讨论。