AI原生工作流：定义下一代专业创作工具

2024-02-14科技

今天，我将解读a16z的研究报告「 专业消费者的未来：AI原生工作流的兴起 」。

在当今的工作环境中，很少有人真正喜欢他们用来完成任务的软件。从幻灯片制作到视频编辑，再到照片增强，现有的工具都是几十年前构思的， 无论是功能上的僵化还是学习曲线的陡峭，都让用户感到不便 （Adobe InDesign就是一个例子）。

然而，生成性AI的出现为创业者提供了彻底重塑工作流程的机会，它预示着一批全新的AI原生公司的诞生。这些公司将利用当下的技术，围绕AI独有的生成、编辑和组合能力构建产品。

AI原生平台将提升用户与软件的互动水平，使用户能够将低技能任务委托给AI助手，从而更多地专注于高层次的思考。 这不仅适用于传统的办公室工作者，也包括小企业主、自由职业者、创作者和艺术家，他们对时间的需求可能更为复杂。

更进一步，AI还将使用户解锁全新的技能集，无论是技术层面还是审美层面。 我们已经见证了Midjourney和ChatGPT的代码解释器等产品的出现，现在 每个人都可以成为程序员、制作人、设计师或音乐家，缩小了创意与技艺之间的鸿沟 。有了专业级而又面向消费者的产品，配备AI驱动的工作流，每个人都可以成为新一代「专业消费者」的一部分。本文将着重展示当今及未来最成功的生成性AI原生工作流的特点，并对这些产品的演变进行假设。

AI原生专业消费者产品的面貌

AI原生专业消费者产品将彻底改变我们与工作工具的互动方式。 这些产品的核心特征在于，将前沿的模型转化为既易于访问又高效的用户界面（UI）。 尽管技术的飞跃令人赞叹，但成功的产品仍需从深入理解用户及其痛点出发，关注 能够通过AI抽象化处理的环节、需要审批的关键「决策点」、以及最高杠杆点 在哪里。

消除「空白页」问题的生成工具将成为此类产品的关键特性之一。 从自然语言提示转换为媒体输出（如图像、视频和文本生成器）是最早也是最明显的消费者AI应用案例，这在专业消费者产品中也同样适用。例如，Vizcom的渲染工具允许用户输入文本提示、草图或3D模型，即刻获得可进一步迭代的逼真渲染图。

一键生成网站工具Durable’s website builder也是如此。

多模态和多媒体的组合是创意项目所需超过一种内容类型的表现形式。 例如， 结合图像与文本、音乐与视频或动画与配音 。目前尚不存在一个能生成所有这些资产类型的模型，这为允许用户在一个地方生成、细化和拼接不同内容类型的工作流产品创造了机会。HeyGen的虚拟形象产品便是一个例子，该公司将自己的虚拟形象和唇语模型与ElevenLabs的文本到语音API结合，创建出逼真的、会说话的视频虚拟形象。

智能编辑器则使迭代成为可能。 几乎没有任何工作产品是「一击即中」的，特别是在使用AI时，每次生成都有固有的随机性。Midjourney的变体和缩放工具就是一个很好的例子，它允许用户在不完全从头开始的情况下，对现有输出进行细化。

在AI视频领域，Pika也有类似的功能，选中特定区域进行编辑。

平台内细化是智能编辑的另一个关键元素 ，最终的打磨工作往往是创造好与创造佳之间的差异所在。 AI工作流产品可以帮助用户识别可以改进的地方，并自动进行这些改进 ，如Krea平台提供的一站式图像或设计生成与增强功能，帮助用户更接近最终产品。

ElevenLab’s也是一个很好的例子，可以针对某些段落进行调整。

输出内容的可混合性和可转换性。 AI使得内容具有独特的灵活性——每一片内容都是另一次迭代的潜在「起点」。Gamma的发布平台就是一个核心特性，允许用户从提示或上传的文件生成幻灯片、文档或网页，并在需要时更改格式。

产品允许用户展示他们的工作流程供他人迭代。 这可能是一系列提示或模型组合，或者简单地为那些技术知识较少的用户提供一个「复制」按钮，以模仿某种输出或美学风格。Imagen AI就是这样一个例子，可以在每位摄影师个人风格的基础上训练模型，使他们能够更轻松地批量编辑。然而，用户也可以选择按行业领先摄影师的风格进行编辑，这些摄影师已在平台上公开了他们的档案。

专业消费者AI产品的演进之路

下一代专业消费者工具的发展仍处于初期阶段，尽管现有工具在生成核心资产方面的能力已经足够强大以至于能够增加有意义的工作流程，但 大多数产品仍然只专注于一种内容类型，并且在功能上相当有限 。 未来几个月，我们希望看到以下几个方面的发展 ：

整合不同内容模式的编辑工具。 以视频为例，使用AI创建一部短片目前需要在像Pika或Runway这样的平台生成多个剪辑，然后将它们转移到Capcut或Kapwing等其他平台进行编辑或混音（或添加在别处生成的声音）。如果你能在一个平台上完成这个过程的每一步会怎样？我们预计， 新一代的产品将能够增加更多的工作流程功能，并扩展到其他类型的内容生成，这可能通过训练自己的模型、利用开源模型或与其他参与者合作来实现 。我们也可能看到一个新的独立的AI原生编辑器出现，使用户能够「插入」不同的模型。

利用不同互动模式的产品。 文本提示并不总是与AI产品通信的最有效方式。我们相信，你应该能够像与人类头脑风暴伙伴合作一样，使用生成工具，无论是通过语音、草图还是分享灵感照片。我们对语音作为一种模式感到特别兴奋，它允许用户分享更复杂和精细的想法（或以文本不可能的方式闲聊）。已经开始出现这样的产品，例如Oasis、TalkNotes和AudioPen，它们能够将语音笔记转换为电子邮件、博客帖子或推文。我们预计， 许多更多的工作流产品将采用音频乃至视频作为输入源，改变用户完成工作的方式和时间 。

将人类和AI生成的内容视为平等公民的产品。 我们希望看到的工具能够让你并排工作， 同时处理AI和人类生成的内容 。目前大多数产品都集中在其中一种上。例如，它们擅长增强真实照片，但对AI图像无能为力；或者它们可以生成新视频，但不能增强或重新风格化来自你iPhone的剪辑。未来，我们预计 大多数专业内容制作者将使用AI和人类生成的内容混合 。他们使用的产品应该欢迎这两种类型的内容，甚至使它们更容易结合起来。Runway的编辑工具就是一个例子，你可以将来自公司生成模型的剪辑和图像拉进来，并上传真实资产在同一时间线上使用。然后，你可以使用公司的「魔法工具」，如补漏和绿幕，对这两种类型的内容进行操作。

专注于内容工作流的产品只是专业消费者软件未来的一个重要组成部分。生产力工具在AI时代同样适合重新发明。

如果你觉得这篇文章对你有所帮助，欢迎点赞、收藏以及转发分享。同时，请关注我，以获取更多关于人工智能的最新资讯和见解！