特别来信在人工智能的浪潮里扑腾水

👉 内容转自公众号「拍照片的麥仔記」

3月，ChatGPT 发布了他的第 4 代版本 GPT-4，然后 AI 这事儿就在全世界范围内彻底爆炸了，除了像调戏 Siri 一样调戏 ChatGPT 之外（后来发现 ChatGPT 是真 AI），还有很多人开始注意到了 Midjourney 这个东西，因为 MJ 也在那个时候发布了自己的 V5 模型。然后，在过去的这段时间中，跟 AI 有关的新闻就没断过了，一个比一个爆炸，大家发现，现在的人工智能再也不是之前的人工智障了。

我不是什么技术人员，也没有什么从业需求，我最早知道 MJ 的时候大概是去年年底，那时候 V4 模型刚刚出来，看别人演示他是怎么生成设计图和海报什么的，很惊艳，但我没太大兴趣，都是设计师的事儿，感觉跟我没啥关系，感觉这些年一直有类似的东西层出不穷地冒出来，直到 V5 模型出来，他生成出来了这样一些图，就突然变得非常吓人了。

我说的这个“吓人”并不是我害怕，而是表达震惊和开心，我觉得离我从照片儿中彻底解放出来的日子不远了，这玩意儿实在是太好玩儿了，于是，沉迷之路就此开始……但我说了，我不是什么技术人员，也没什么从业需求，我不需要 ChatGPT 帮我写论文写代码，不需要自己做 plugins，不需要 MJ 帮我真的设计出来什么，所以我只是玩儿一下儿而已，在这个 AI 的大浪潮里扑腾两下儿。

最近我看关注这个东西的朋友越来越多，但是很多人是不太清楚要怎么开始的，所以我就分享一点儿我的心路历程。

这一切的前提是需要科学上网，但我不会讲“如何科学上网”的方法和步骤。因为如果你还不知道怎么科学上网，目前来看，AI 世界就离你有点儿远了。

ChatGPT

去这个网址 https://openai.com/blog/chatgpt，点击那个 Try ChatGPT ↗。

先注册一个账号，在注册的过程中需要用到国外的手机号，可以在 https://sms-activate.org/cn 这个网站搞到。先充值，现在涨价了，大概需要 2 美元，然后选择 OpenAI 的服务，建议买英国号码，之后在 ChatGPT 注册过程中需要验证电话号码的时候，把这个临时（20 分钟）的国外号码输入进去，在号码生成页面等着验证码发过来就好了。

注册成功后我们就可以进去啦，目前聊英语比聊中文效果好得多。至于聊什么，等会儿再说。

现在免费的是 GPT-3.5，你可以选择升级成 GPT-4，但好像国内的信用卡不好使，所以我还没升级，但应该是有办法的，等忙过这两天再说。

Midjourney

你需要先下载一个叫 Discord 的软件。疫情刚开始的时候，我们几个朋友一起玩儿 Minecraft，当时就天天挂在 DC 上，连晚上睡觉都不下线的那种，非常快乐，没想到这次 MJ 需要在 DC 上用，就很亲切。

注册好 DC 以后就到了激活 Midjourney 的时候了，非常简单，进入官网 https://midjourney.com，点右下角的那个 Join the Beta，这时候 DC 会自己跳出来，MJ 让你授权加入他们在 DC 的服务器 (Server)，你一点授权你就进去了。

进去以后在左边栏先自己建一个新的 Server，类似于你自己的私人聊天室，然后在 MJ 官方的 Server 里找到 Midjourney Bot，点那个 Add to Server，把他添加到你刚才新建的 Server 里，然后你就可以给他下达描述指令（prompt）让他画画儿了。

MJ 目前只接受英文指令，所以如果英语不好，就去 Google Translate 或有道词典上翻译，翻译完复制粘贴。

免费版的 MJ 只有大概 20 多分钟的生成时间，一张图生成大概需要 1 分钟，所以免费版的也就能生成 20 张图。如果付费，有三种套餐，分别是：基础版 (Basic Plan)、标准版 (Standard Plan) 和专业版 (Pro Plan)。

想在人工智能的浪潮里扑腾水的就买基础版，想游泳的买标准版，想冲浪的买专业版。我买了扑腾版，扑腾了三天就把生成时间都用完了，所以只好又买了一个 5 小时的“流量包”，下个月我就不扑腾了，要直接从游泳起步了。

关于 Prompt

每次输入描述指令的时候都需要先输入 /imagine prompt，不过在 DC 里，你刚输入完 img，这个指令前缀就会自动跳出来，你点回车让他自动填充就行，之后，开始你的表演。

我用 MJ 生成的第一张图是这个。

这一看就能知道我不是个设计师，而是个摄影师，这样的画面是我一直想给二毛拍的，虽然跟我脑子里的画面有很大出入，但能出来这么一张图已经让我很开心了。这张图的 Prompt 是：

/imagine prompt On a sunny day, a Tibetan boy around 16 years old, wearing shorts, slightly dark skin, taking a nap on a large tree, with the tree leaves casting a cool shade on his face, a blue lake on the back, countryside style, small aperture around F8

非常稚嫩的 Prompt，后来我稍微又多了解了一下儿才知道，MJ 的 V5 模型非常依赖 Prompt 提供的信息数量和质量。

在不断了解的过程中，我搞出来了这样一些图（按时间顺序）。

但之前我没有想到 MJ 知道泸沽湖，所以我的 Prompt 一直是 a vast boundless blue lake，于是，虽然他大概能画出这么一面湖，但那就不是泸沽湖。一次偶然，我发现他认识 China Guilin，于是我就把 Prompt 改成了 China’s Lugu Lake，风格也改了，不要漫画风了，然后，就有了这样的图。

简直就是泸沽湖，连山的远近和山形儿都一样。接下来，用新出的照片模拟版本 (--testp)。

最后这张真像是现在我这些小兄弟小姐妹们的父辈，那时候的泸沽湖，那时候的岸边。而且，不细看，很难辨别这是 AI 生成的图还是老照片儿了。

局限

这种纪实类的图目前对 AI 来说其实是不太好画的，所以现在网上看到的更多都是那种偏设计向的图。但我各种尝试修改 Prompt，就是想看看 AI 做这种图的时候到底能识别人类意图到什么地步。

虽然 China’s Lugu Lake 的问题解决了，不过，无论怎么描述，我发现 Tibetan Prayer Flags（经幡）这个东西总是会被他忽略掉，我输入 “must have” 都不行，八百张里才能随机到一张把经幡画出来的。

看这个 Prompt：

/imagine prompt A boy is treading water in a colossal wave of digital, The wave is a surreal blend of vivid colors, with neon orange and green and purple hues coiling through the water like serpents, The wave seems alive, with streams of flickering code racing through the water like electric eels, and bright geometric shapes pulsing and spinning around the boy, It’s a breathtaking and otherworldly sight that could only exist in the realm of imagination, a daring explorer navigating a world of digital magic, captured in the beautiful and dynamic style of oil painting --ar 2:1 --q 2 --v 5 --s 750

（先不要管 ar 2:1 --q 2 --v 5 --s 750 这些东西）

出图以后长这样，非常好看，但问题是 streams of flickering code racing through the water 在哪儿？这一点大概是这张图最重要也最出彩的部分了，但 MJ 恰恰总会选择性忽略这样的信息，大概是因为我对于这样的信息的描述还不够准确，MJ 听不懂，所以也就不容易画出来。于是，现在的问题就变成了 “MJ 到底能听懂什么？我怎么描述他才能明白我的意思？”。

乱纪元

在我发现他不太擅长完美处理纪实向的照片儿之后（当然他现在本来也不可能完美处理），我开始了乱试的阶段，于是有了这些照片儿。

ChatGPT + Midjourney ≈ 神迹

刚才提到一个话题，“MJ 到底能听懂什么？我怎么描述他才能明白我的意思？”，最好的解决办法当然就是让机器们自己聊起来，他们最知道自己能听懂什么。

ChatGPT 有很多聊法，但在这儿我只说一种，ChatGPT 是可以连续聊天儿的，也就是说他能记住你和他都说过些什么，那么，利用这一点，我们就可以让他协助我们生成 Prompt。

首先，

我说：我在用一个叫 Midjourney 的 AI 程序，他可以生成图片，但条件是需要给他提供一些描述指令（Prompt），所以，为了可以更好地发挥他的潜力，我需要你来当我的指令写手，如何？

他说：没问题。

我说：我之后会给你一些关键词和关键表达，中间会用斜杠或逗号或加号作为分割，麻烦你把他们有机地组织起来，要尽可能准确，要让 Midjourney 机器人听得懂。

他说：没问题。

然后，我们就可以用相对简单的关键词换来一段或几段比较精彩的 Prompt，比如：

如果用这个 Prompt 生成的图片你不满意，你可以让 ChatGPT 做修改，他记得你们之前说过的所有东西，所以直接只说修改意见就好。当然，在他生成的 Prompt 的基础上，你也可以自己进行修改，然后拿给 MJ 碰运气。

先是这样：

然后做修改，碰运气……

然后继续做修改，继续碰运气……

折腾一溜够，于是，就有了这篇文章的这张题图，这张图的 Prompt 在前文中有提到过，可以翻上去看。一张成功的图，运气好的话，要碰一个小时运气，哈哈哈！现在我非常期待 GPT-5 + Midjourney V6 的真神迹。

后缀

之前我们看到过 ar 2:1 --q 2 --v 5 --s 750 这个东西，这个 --什么的东西叫后缀，是调整 Prompt 的属性的，其实还挺重要的吧，但我懒得讲了。现在网上有很多 Midjourney 的教程，随便去看一个，后缀这点儿东西瞬间就搞定了，不难。

展望

Boston Dynamics 一直非常火，他们的机器人近些年来经常会让人冒冷汗，像 BigDog 和 WildCat 这些机器人变成了现在当家的 Spot 和 Spot Arm，还有现在已经商品化投入实际使用的 Handle 和 Stretch，但其中我最关注的就是 Atlas。

首先是我超级喜欢这个名字，这个名字和我喜欢的很多东西都有联系，其次但不是其次，就是 Atlas 的成长很难不让人关注。我觉得很可能第一个投入民间市场的人形机器人就是他，在未来的机器人纪年中，他很可能是 Robot Zero。

之前 AI 一直傻不愣登的，但 GPT-4 突破了“常识”这一关，突然就变得超级聪明了，如果把 GPT 五年后的版本装到五年后的 Atlas 身上，光是想一想都开心！因为，那就等于是真正地开启了人类历史上的另一个大时代，不对，不是大时代，是新纪元，见证历史了。

AI、机器和人类携手并进的纪元真的来了。

我现在就是期盼着我的那些小兄弟小姐妹快快放暑假，迫不及待地想跟他们分享这些了，我知道他们其中的某些人一定对 AI 这种东西非常感兴趣，想到他们必然会满脸兴奋的样子，我就提前开心起来了。

To be continued…

精选留言（5）

westfall 👍（0） 💬（1）
B站上的AI孙燕姿也能以假乱真
2023-05-10

苏果果 👍（0） 💬（1）
真不错
2023-05-09

克里斯 👍（0） 💬（1）
还以为要出新教程了🥹
2023-05-09

杨利 👍（0） 💬（0）
两门课程都学完了，收获颇多，不止是学到了摄影技能，还学到了很多关于摄影和行事的理念。
2024-11-22

jjn0703 👍（0） 💬（0）
wow😮 泰裤辣！
2023-05-09

特别来信 在人工智能的浪潮里扑腾水

特别来信在人工智能的浪潮里扑腾水