WWDC 上 AI 的使用指南

在过去的一年里,科技行业面临着越来越大的压力,要求在 AI 领域有所作为。虽然“AI”这个词的含义各有不同,但通常是指一个能够处理自然语言输入的大语言模型 (LLM) 聊天机器人。

尽管苹果一直努力提醒大家他们在机器学习和神经引擎方面的成果,但由于没有自己的 LLM 聊天机器人,苹果被认为在这方面落后了。

LLM 虽然是人工智能,但并不是真正的智能。它们可能会出现错误或故障,但在对话和理解上下文方面比传统语音助手(如 Siri)要强得多。这让苹果的高管感到紧张,并启动了紧急 AI 项目。

OpenAI、微软、Meta、谷歌等公司都在争夺地盘。每家公司都在试图绕过智能手机平台、搜索引擎垄断、数据经纪人、广告销售、SEO、出版商、摄影师和库存视频等几乎所有领域。科技公司为了展示他们在 AI 领域的相关性,显得非常紧迫。

苹果不想显得紧张,但在 WWDC 上,他们必须使用 AI 的流行词汇,并展示他们在当前潮流中的位置。以下是苹果可以从其他公司在展示 AI 能力时所犯错误中学到的教训。

摘要和疏忽

不要展示总结对话的功能。虽然 Mark Gurman 建议这可能是一个新功能,但其他公司的演示效果并不好。总结功能让人感觉是“如何更高效地忽略周围人的细微差别和人性”。而且,摘要演示非常无聊。

在 Google I/O 上,有些摘要演示既无用又显得不敬。比如,一个权力夫妇与他们未来的屋顶工之间的理论对话中,谷歌的“帮助性”摘要说同意了一份报价,但却没有提到具体的报价是什么!实际价格直到后续问题才出现。这样的摘要忽略了屋顶工与丈夫互动的所有细节。谁会信任这样的摘要呢?

LLM 的摘要会删除词语、压缩上下文、消除语气、削弱意义。但忙碌的科技高管们却喜欢这些演示!

不要展示监视用户通话或设备屏幕的功能。在 Google I/O 上,一个演示在电话通话期间显示了欺诈警告,这表明有一个 AI 模型在监听对话。即使这完全在设备上进行,谷歌在监听电话内容的事实仍然令人不安。同样适用于微软的 Recall 功能,这是另一个在设备上监视用户行为的功能,尽管微软在保护用户设备安全方面的记录不佳。

绝对不要让聊天机器人在与真人对话时插入提供帮助协调时间或发出提醒。幸运的是,苹果没有工作场所聊天平台,所以我们不太可能看到 Google I/O 上展示的“Chip”,那个多嘴的虚拟聊天助手。但我也不希望那个机器人出现在我的 iMessage 线程中。

不要展示 AI 生成的内容。不要展示 AI 写的诗歌或报告。如果用户需要帮助写求职信,应该展示一个求职信的例子。AI 应该引导用户使用经过验证和批准的模板。(不过,WWDC 上应该有与 Xcode 相关的 AI 话题,否则为什么要谈论 AI 呢?这需要尊重开发者的需求,并真正有助于他们的工作。)

我认为苹果已经从将人类表达工具压缩到一台薄薄的 iPad 中这一教训中学到了宝贵经验,但还是要重申:不要再那样做了。

**创作**

不要展示仅凭提示生成的图像。任何生成的内容都应该基于源图像或视频进行增强。展示调整图像的纵横比、移除物体和镜头光斑、创建缩略图、锐化、去噪或焦点效果。

即使如此,也要保持在合理的范围内,不要让 Photos 应用变成 Midjourney 或 Stable Diffusion,更不要使用来源不明、法律上有问题的模型来增强照片。最终的照片仍应是你原来的那张。

至于合作伙伴的演示,我建议不要展示那些允许用户无需艺术家就能为其公司或产品制作徽标或图标的 AI 模型。在任何情况下都不应使用 Midjourney、Dall-E 或其他从网络上抓取艺术品和照片的生成器作为演示。即使这确实是一个用例,可以展示神经引擎比在 Intel 上创建徽标快 90%,但这传达了错误的信息。

不要展示视频生成器。这些工具大多让人感到害怕,并吸引怪异的爱好者。“看,她的手在沸腾!”它们基本上是伪造库存视频的替代品,而苹果并不是伪造库存视频的供应商。

处理重新计时、色彩分级、细节恢复和降噪的 AI 视频工具是可以接受的,尤其是如果它们能够利用苹果的多功能成像管道,或可以使用苹果的深度数据作为处理视频的一部分。

例如:苹果对用户拍摄空间视频感兴趣,但不同镜头存在技术短板。展示如何将数据从一个镜头传输到另一个镜头,以减少伪影并提高分辨率。做一个类似 Ocula 的易用版本。

有可能将 AI/ML 作为工具保留下来,而不让 AI/ML 接管输出。每个演示都应该有一丝现实作为基础。它应该适用于现实生活,而不是试图在拥挤的虚拟市场中竞争。

嗨,Siri

Hey, Siri

既然前情铺垫已经讲得差不多了,现在我们来谈谈 Siri。

我们都希望苹果的一位高管在发布新版本之前上台道歉,但更有可能听到的是:“每天有数百万人使用 Siri,这就是为什么我们很高兴地宣布 Siri 比以往更好。”

然而,Mark Gurman 有点泼了冷水:

这里缺少的关键功能是聊天机器人。苹果的生成式 AI (Generative AI) 技术还不够先进,无法推出类似 ChatGPT 或 Gemini 的产品。此外,苹果的一些高管对这一方向持保留态度。聊天机器人的失误曾给谷歌等公司带来争议,也可能损害苹果的声誉。

但是苹果知道消费者会要求这样的功能,所以它正与 OpenAI 合作,将这家初创公司的技术集成到 iOS 18,也就是 iPhone 软件的下一个版本中。这两家公司正在筹备在 WWDC 上宣布他们的合作,Sam Altman 领导的 OpenAI 正努力确保其有能力支持今年晚些时候涌入的用户。

这让人很困惑。我不知道演示会是什么样子,但希望不是“在你的 iPhone 上显示来自 ChatGPT 的结果”,然后出现一个大窗口显示 ChatGPT 的输出。

值得注意的是,尽管很多人对 ChatGPT 的功能充满热情,但并不是所有人都喜欢它。

苹果当然不会像 OpenAI 在春季活动中那样,在 WWDC 上演示假冒的 Scarlett Johansen 声音。毕竟,他们因此被起诉了。

在同一个 OpenAI 春季演示中,有一个非常出色的 LLM 语音界面展示:一个演示者讲英语,另一个讲意大利语,ChatGPT 4o 实时翻译。这是一个很好的演示,而翻译功能也是苹果需要追赶的领域之一。虽然这不是一个传闻中的功能,但会是一个很好的展示。

谷歌展示了与 Google Workspace(Drive、Sheets、Gmail、Gchat 等)的集成,苹果也应该展示 Siri 能从 Mail、Messages、Calendar、Photos、Reminders 等中提取信息。理想情况下,它能够与更多的应用程序集成,但至少需要能够访问这些数据。

这意味着需要一个隐私界面来管理 Siri 可以访问哪些应用程序,特别是如果它将信息传递给第三方,并且苹果需要向用户保证,他们不会查看你设备上的每个应用程序。

我担心苹果只会在 Siri 窗口中加入 ChatGPT 的基本功能。这可能比继续悄悄地改进现有功能更糟糕。我还是列出一些我希望看到的示例:

展示有人请求 HomePod 或 Watch 执行某项任务,而不是说它不能做到,它会在 iPhone 上执行。告诉我们 Siri 在 Apple ID 下如何在设备间安全且功能齐全。

演示有人告诉 Siri 在电视上播放某些内容,然后请求 Apple Watch “暂停电视”。Siri 知道“电视”是我开始播放内容的那个(基于蓝牙,我的 iPhone 在附近),即使有很多电视连接到我的 Apple ID。

做一个小演示,有人问 Siri 某个设置在哪里,或者如何操作。“Hey Siri,我的保存的密码在哪里?”它会直接跳转到设置的密码部分。“Hey Siri,我把亮度调到最低,但还是太亮了,我该怎么办?”它会显示减少白点控制。对话式地,“我如何只在晚上开启减少白点?”它会提供一个基于睡眠和唤醒时间的快捷方式。

演示有人使用新的 Siri 与 CarPlay,这对 Siri 来说是一个重要的应用场景,比如有人对 Siri 说“播放‘Mona Lisa Overdrive’”,然后再说“播放整张专辑”,它会按顺序播放专辑中的歌曲,而不是像现在这样随机播放。

展示有人在 Mac 上暂停音乐,并告诉 HomePod “播放我最后听的内容”,它可以在 HomePod 上恢复播放,就像你在 Mac 上按了播放一样。

展示 Siri 能够理解当前屏幕上的内容。当被问到“Hey Siri,这个视频中的演员是谁?”然后继续问“我最近在哪里看到过他们?”它可以通过 TV 应用查看最近观看的内容,并检查该演员的角色。这不会让任何人失业(嗯,除了 Casey。对不起,伙计。)

最重要的是,向观众展示当 Siri 不知道该怎么办时,它会询问。展示一个优雅的失败状态,让人们相信苹果可以负责任地行事。

让我用最近一次与 Siri 的互动来说明不要做什么:

我:“播放《最后的星际战士》的原声带”
Siri:“这是《最后的星际战士》”
[在 iOS 上打开电视应用并开始播放我的视频库中的《最后的星际战士》。]
我:“播放《最后的星际战士》原声带。”
Siri:“这是 Dan + Shay”
[音乐应用开始播放 Dan + Shay 的《Alone Together》。]
我:“播放《最后的星际战士》原版电影原声带。”
Siri:“这是 Craig Safan 的《最后的星际战士》。”

不过,似乎并没有传闻说苹果会这样改进。好吧,那我就继续听 Dan + Shay 吧!

道德问题?有人关心吗?

关于苹果将与 OpenAI 合作的传闻中,有一个非常令人担忧的方面。OpenAI 并没有通过合法途径获得使用信息来训练他们的模型的权利,就像他们没有尊重 Scarlett Johansen 的拒绝一样。目前,他们正与多家媒体公司进行诉讼。

即使是那些与 OpenAI 达成协议的公司,比如 Stack Overflow 和 Reddit,在他们的内容被抓取后也只能接受现实。这些网站上创造了所有价值的用户,甚至不能通过删除帖子来表达抗议。

苹果是否会通过在他们的下一个操作系统版本中集成 OpenAI 来支持他们?他们绝对不应该在 WWDC 的演示中展示 OpenAI 的任何人,尤其是 Sam Altman。

很容易将这种情况与谷歌进行对比。尽管谷歌经常因权利问题被起诉,但苹果仍然与谷歌合作。

当然,苹果从谷歌那里获得资金,让它成为 iOS 上的默认搜索引擎,然后试图通过 Safari 插入 Spotlight 建议来假装有隐私保护。这意味着默认搜索将通过谷歌的 AI 概述进行。所以,即使苹果不再与谷歌达成更多协议,他们也已经在支持谷歌的 AI 方法。

此外,不要忘记苹果在气候承诺方面的道德责任。在 WWDC 的主题演讲中,苹果应该有一部分内容说明他们如何在利用 AI 的同时仍能保持他们的气候目标。这可能看起来是个小问题,但人们对于在履行承诺的同时使用他们的模型变得越来越不在意。

无论发生什么,我怀疑在 WWDC 之后会有大量的失望和愤怒。这就是我们生活的时代。我只是希望苹果能从过去的一些错误中吸取教训,不要为了追赶科技界的 AI 热潮而犯下太大的错误。

发表评论

邮箱地址不会被公开。 必填项已用*标注