我可以在纸上花几秒就画出点东西,但当我到电脑前的时候却要花上几分钟或几小时,这不是因为电脑不够快或者我不知道我想要什么,而是因为我和计算机之间存在着某种东西阻止了我们进行最基本的交换,我觉得解决这个问题很酷 ———— Interview of Holz @ 2012
为何关注
近一段时间,通过 AI 生成图片在国内的应用也越来越多,仿佛当年 Android 刚开源的时候那种百家争鸣的景象重现。但绝大多数都是基于开源的模型进行了二次修改,重点都在运营和商业化上使劲,不知道能否经得起时间的考验。
虽然无意入局,但是对于这种新的产品,以及对应的创作形式无比喜爱(沉思录这半年来的头图都是 Midjourney 生成的),所以还是希望有时间深挖一下,这些应用背后的人,以及他们看到的是怎样的世界。因为任何创造都不是凭空出现的,许多时候看似新生事物,其暗线却已然绵长。
随着镜头逐渐深入,我们发现了其创始人 David Holz 从 LeapMotion 带到 Midjourney 的那些暗线:
- 人机交互的边界到底在哪里
- 如何放大人类的想象力
- 如何能一辈子专心干一件事
下面便是关于其创始人 David Holz 的故事,主要编译自他在许多场合的访谈,以及其 Twitter 上的信息。由于语言能力有限,如有错误都应归于本人。另,感谢 Joey Lu 同学提供大量背景资料。
起源
David Holz 最初感兴趣的是物理学,因为想像先人一样了解宇宙。同时也喜欢数学,因为关于真理,所以 Holz 以双学位本科毕业。但研究生的时候才发现必须在物理和数学中做出选择,所以最终在真理和现实之间,选择了一个交集地带 —— 应用数学。
但后续发现并不适合自己,后续在 NASA 和马普所工作,虽然项目都很前沿,但是却意识到一件事,自己对所做的任何一件事都不关心。而他希望能专注于做一件事,自己最关心的一件事。而这件事就是他在公寓中捣鼓的 LeapMotion 模型
他比较关心人类和技术以及他们互动的方式,所以想尝试创办一家专注于解决这个人机交互问题的公司,于是就有了 LeapMotion
LeapMotion
- LeapMotion 最初的起源来自于 Holz 的中学时代,彼时他想要学习 3D 建模,但发现操作过程非常复杂,引起了他的思考 —— 我没有问题,计算机也没有问题,如果建模这么复杂,那么问题一定在于两者之间,也就是人机交互的方式。
- Holz 认为,技术的最大限制不是规模、成本或速度,而是我们如何与之互动。不管我们有多聪明,技术有多好,我们如何合作从根本上决定了我们能做什么。这也便是 LeapMotion 的使命。
- LeapMotion 2008 年开始成立,2012 年获得千万美元融资,红极一时。2014 年产品上市后未达到预期,然后就陷入沉寂,最终在经营了 12 年之后,他于 2019 年离开了这家有 100 位雇员的公司。
- 早在 Windows 支持触屏前,LeapMotion 就已经支持 3D 手势操作了。但无奈诞生的太早,就像 Windows 引入触摸屏之后也遇到各种问题,而更糟糕的是,当时 LeapMotion 是基于 Windows 开发的,这也意味着更超前了一步,缺少应用程序支持,用户拿到产品后缺乏使用场景。
- 后续发现如果不能重新发明 PC,那么无法取得成功,就跃入了新的领域 VR/AR ,希望能通过模拟手,带来更多的交互可能。但当时思路还是做一个平台,但却忽略了对于初创公司压力很大,因为不但要开发好自己的产品,还要培养对应的生态。LeapMotion 产品很棒,但应用商店有 300 个应用,并且没有一个是杀手级的应用。
- 遗憾的是,在 LeapMotion 的过程中,意识到这个问题的时候已经晚了,Holz 坦诚到,因为他仅仅是以自己为例,按照自己对于视觉和触觉的反馈来设计,而当更多人参与测试时,情况就发生了变化。这也是后续在 Midjourney 的过程中,我们刻意避免的问题,比如 90% 的人并不知道自己想要什么,所以我们的产品形态经历过许多变化。
- 今天来看,LeapMotion 其实是个不错的生意,但难点在于如何培养生态,以及成为 OEM 组件供应商。因为当时他们的重点在于,希望能改变人机交互的核心体验,所以并未开放授权或对接到现有产品。但实际上,花时间观察人们如何使用它,并尝试发现其内在本质,才是真正的艺术之道。比如当时电影刚发明出来时,搞清楚了电影最终是什么的人才能成为优秀的电影人,而非如何玩弄视频。
LeapMotion 的设计历史
很少有人知道 LeapMotion 关于交互设计的故事和历史。看似「简单」的东西是在经过多次复杂的设计和迭代之后才出现的,这是 Holz 在其 Twitter 上回顾各个版本交互历史的一系列推文。从中我们能看到 Midjourney 后续的三个要素都已经出现:人工智能、人机交互、界面设计。
第一个可穿戴界面,'Planetarium' demo (2015)。请注意在手臂侧面触发不同子菜单的模式开关,以及袖口上的信息读数。

第二个可穿戴界面(2015年)在手臂的背面有滚动、滑动-取消、点击-扩大和通知。我们用一个手腕上的按钮从手上召唤出一个多层次的菜单系统,然后将其固定在空间中。
第三个可穿戴界面(2016年)是最著名的,而且很简单。举起手臂暴露元素可能会很累,但快速触摸手上的三个按钮之一是快速、简单、舒适和引人注目的。它不需要任何解释。

第四代可穿戴式界面(2018年)保留了三个简单的手锚式元素,但增加了通过将元素从手中拉出,使其转变为空间锚式小部件,从而实现长时间的复杂互动的选项。

构建 Midjourney
- 第一个模型其实利用了大量开源的东西,如 Katherine Crowson 的独立研究,以及 OpenAI 的 Clip,以及许多其他人的研究。相对于被 META 垄断的 VR 市场,AIGC 领域中由许多小团队在进行各种独立的研究,这样才能在各个环节都有众多可选择的合作伙伴(或方案),同时这些小团队也会不断竞争,演化出来最合适的生态环境 —— 这和当年手机行业伊始何其相似。
- 最初 MJ 有两种算法,一种是等待 20 分钟生成一个看起来不错的照片,另一种是 15 秒能生成一个质量较低的图片,但不确定到底哪个更好。所以在测试之后发现,相较于质量,人们更关心速度。因为如果生成太慢,对你(生成者)的训练就太少,导致学不会;而如果太快,也不会对人们带来更多体验上的加成。所以最终选择了 60 秒的版本,比 10 秒生成的质量更高,也在人们可以忍受的范围内。所以 Holz 认为有一个黄金区域,而他们只关注这个区域内的质量。
- Holz 不喜欢用 AI 生成假照片的想法,因为感觉这个世界上并不缺这样的东西,但更愿意让其作为商业插图。《经济学人》在去年六月份的杂志封面就用了 MJ 生成的图片。Holz 认为,AI 工具可以让艺术家在他们所做的事情上做得更好,而不是让每个人都成为专业艺术家。
- 但 Holz 却认为,MJ 其实并不是仅是为专业艺术家制作的。典型案例应该是这样的,比如一位想要成为艺术家的银行从业者,因为有了 MJ,可以重拾儿时的梦想。又或者一辆卡车司机在闲暇之余,制作他自己希望拥有的某红风格的棒球卡,这一切都只是为了好玩。重要的是要强调这与艺术无关。这是关于想象力。想象力有时用于艺术,但通常不仅用于艺术。
- Holz 认为 MJ 最大的挑战是,虽然他们愿意制作多种产品,但挑战在于产品不仅仅是一组功能,而且还是一个社区、一个品牌和一个愿景。因为很难花一大笔钱从中购买六个未来愿景和六种不同类型的社区和产品。但 Holz 也坦诚还没有想出一种方法来扩展它 —— 但他知道,每个产品公司基本上都不会尝试一次生产 10 种产品,比如 Apple 的产品线就极其精简。
Midjourney 的业务
- 在 Holz 来看,MJ 其实是一个实验室,不需要向任何人解释业务是什么,就可以有足够的钱来做研究。所以没有选择风投创业,而是选择针对一个问题,找到调研的目标和方法,在一群人身上测试,最终并对提供的东西收费。
- MJ 有数百万用户,Discord 频道有 200 万人,目前已经处于盈利状态。MJ 的商业模式很简单,你希望制作图片,然后为此付费。同时这也是一种最诚实的商业模式 —— 我们提供基础设施,你为基础设施买单,然后用利润覆盖团队成本。
- MJ 的用户中,大约有 30%-50% 是专业人士,用来增强他们的创意和沟通过程。还有 20% 的用户用来做一些「艺术治疗」,比如生成已经去世的狗狗图像。剩下的人只是为了玩的开心,绽放自己的想象力。
- 不过第一次定价也翻车了,因为有些硬核用户消耗太多,让利润变为了负数。但后续调整有让我们赚取了太多利润,所以我们又开始降低利润率,因为我们只是希望能提供更好的服务,而非赚取更多的钱。
- 所有收入的 10% 用于训练模型(单次成本约 50000 美金,大概需要 3 -20 次才能成功),90% 用于制作用户需要的图像。目前使用了超过 10000 个 GPU,为此做了许多降低成本的创新,比如同时在世界上有八个区域可以制作图像,这样当美国人白天上线时,调用的是韩国的 GPU,因为夜间价格比较便宜。
- 如果想让世界上的所有人都是用这种模型,那么未来的云服务应该比今天的大一千倍,所以这并不是一个短期内能弥补的缺口。所以接下来几年云服务供应链将会遇到瓶颈,这也是 MJ 不做过度宣传原因之一。
- 不过未来可能有两个版本,一个是七年内人们解决了短缺问题,另一种是接下来的七年内将会变得供应紧张。这背后会带来不同的变化,没有人知道未来会怎么样。
Midjourney 与 Discord
- 最初使用 Discord 是因为远程团队导致,当时构建了一个机器人是为了一起调试,后来发现大家非常喜欢这种模式,因为能看到图片慢慢生成,同时还能被其他人的创作启发,这些共同的发现和体验,都被融合在了 60 秒的等待中。所以我们选择了在 Discord 构建这个产品,也意味着免费获得了许多良好的体验,比如移动端和同步。
- MJ 已经成为了有史以来最大的聊天机器人程序。许多聊天机器人都有一个误区,就是想成为人。我们设计 bot 的时候想的是,这是一辆车,所有人都应该坐在这辆车上,这样的大家就能看到所有的风景了 —— 没有人和机器的对话,只有人和人的对话。所以从这个视角来看,MJ 的机器人只是某种协作的命令行、搜索或者空间而已。
- 这种设计思路,始终能让房间内有一个主题,而不会演变成某种肆意闲聊,大家的注意力都会隔一阵被生成的图片所吸引。同时也能让新来的人更好地了解产品。因为他不需要问「我该怎么做」,他只需要像所有人类具有的学习能力一样,坐下来静静观察一下,然后动手尝试,就能慢慢地掌握相关的技巧。这就像单纯让一个人生成一张「狗」,并不兴奋,但是让一群人待在一起,不断生成「太空狗」「激光狗」等等,就能相互激发创造力,这样也就构建了一个富有想象力的环境,也能增强人们的想象力。
- MJ 的 Discord 服务器中,45 岁的人和 18 岁的人一样多,年长的人由于有更多的经验和词汇,更倾向于文字描述,而年轻人更喜欢用图生成图。所以最重要的是有想法,然后去测试想法, 但不带有强烈的观点,否则你将看不到事情的本质。事实上,构建产品最重要的部分,就是对想要发现的事物本质,保持开放的态度。
关于 Midjourney 背后的理念
- MJ 的目标是成为新的人类基础设施,这样才能支撑更多人构建新事物。所以 MJ 的主题是反思、想象和协调。反思自己是谁,想要什么;想象会是什么;协调大家如何抵达。同时也会思考其人性的一面,例如人类通过计算机来想象就能像汽车旅行一样,这意味着什么;又或者人类在想象的过程中以什么方式互动等。
- MJ 其实是水。人们误解了人工智能是什么,就像认为其是一只老虎,会吃掉我们。但其实水也很危险,能淹死我们,但流动的河水和老虎完全不同,水是危险的,但是你可以在其中游泳,造船,建造发电站等。水虽然是危险的,但却是文明的驱动力,作为知道如何与水共处的人类,我们能过的更好。水没有意志,也没有恶意,你可以淹死在其中,但并不能应该因此惧怕并禁止水。所以 MJ 试图弄清楚的是,我们如何将其用于人们?我们如何教人们游泳?我们如何造船?我们怎么把它堵起来?我们如何从害怕溺水的人变成未来冲浪的孩子?我们正在制造冲浪板而不是制造水。这才是一些深刻的意义。
- 困难和有趣是事情的两面,MJ 面临的许多问题无法量化。比如什么是一张「好的狗狗照片」,这很难回答,但也因此有趣。类似的问题还有「什么是好的图像」「人们想从图像中得到什么」「他们是如何沟通的」「他们如何通过文字描绘出他们想要的东西」 —— 这些问题几近哲学,但却很让人喜欢。
- 关于愿景,希望能以某种方式创造一个更有想象力的世界。因为今天世界最大的问题是信仰崩溃,包括对自己的,对未来的信念。而造成这种问题的主要愿意那就是缺乏想象力,缺乏自己可以成为什么人的想象力,缺乏对未来的想象力。所以想象力才是我们在世界上所需要的东西的重要支柱。所以我想通过 MJ 来将其变成一种可以「扩展人类想象力的力量」
- 当计算机比 99% 的人类更善于视觉想象时,这意味着什么?这并不意味着我们将停止想象。汽车比人类快,但这并不意味着我们停止步行。当我们远距离运输大量物品时,我们需要发动机,无论是飞机、轮船还是汽车。我们将这项技术视为想象力的引擎。所以这是一个非常积极和人性化的事情。
- 但为了达到这种愿景,还有许多问题需要回答,比如他们到底如何与之互动,接口有哪些,需要什么组件来构建等。所以我们参考了许多 Leap 的经验,并不是上来就做出一个完整的体验,而是先看到未来的 10 步,然后做一堆很酷的东西,然后看看人们喜欢什么,然后就找到最酷的三件事,把他们放在一起,这样就能发挥更大的协同效应。
QUOTE
我的许多聪明的朋友,都被他们的智力所麻痹,思考压倒了行动。我的许多成功的朋友不那么善于思考,但行动迅速。他们总是专注于向前推进。尽可能多地做出 "可能正确的行动"。这是一个成功的策略。
如果你不小心,到了一定年龄,你就会找到你的领域,你的模式。然后你就会变得很擅长它。好到你永远不需要做其他事情。然后你就再也不做了。
大家都说 "硬件很难做",但我不同意。硬件是很难开始的。但一旦你开始行动,就很容易继续制造伟大的东西。相比之下,软件很容易开始,但在每一点上你都处于被遗忘的边缘。软件是脆弱的,因为它是免费的。
推荐阅读:
- An Interview with Midjourney Founder David Holz about Generative AI, VR, and Silicon Valley
- Midjourney Founder David Holz On The Impact Of AI On Art, Imagination And The Creative Economy
- ‘An engine for the imagination’: the rise of AI image generators
- David Holz, founder of AI art generator Midjourney, on the future of imaging
- David Holz Twitter
- Video:PandoList: LeapMotion's David Holz On The Future Of Computer Interfaces
- Midjourney 社群作品