30 AI发展的下一阶段：什么是Q Star(*)？

你好，我是独行。

这节课我们来聊聊Q*，也叫Q-Star，这是我目前听到的人工智能领域最有悬念的一个概念，有时候想想也觉得特别神奇，老外每天脑子里在想什么，2023年11月份，OpenAI放出了Q的概念，AI圈子一下子炸开了锅，很多人都在猜测Q到底是什么？甚至还放出了一份号称是内部沟通绝密文档，让这个事情变得更加神秘！

关于Q*的讨论，网上有非常多的观点，网友们天马行空，我觉得你也可以把大脑放空一下，带着极强的想象力来学习这节课程。

事件起源

最早的时候，路透社报道了一封OpenAI内部员工向董事会发送的信件，称OpenAI正在研究的秘密成果Q*可能会威胁人类，这也成为之后OpenAI CEO 山姆奥特曼被解雇的原因之一。以下是该信件的翻译稿：

我是给董事会写信的人之一，我要告诉你们发生了什么——AI在编程。

在编写程序时，我们会存储一组可以反复调用的指令，可以把它想象成一组对特定参数的回答，我们称之为子程序，因为它几乎就像一个多功能的计算机备忘录，不像函数那样会返回一个值。记住，这一点很重要。

我们运行了参数检查，以确保一切顺利。我们中的一个人负责与Al的元内存分析有关的子程序。他把我叫过去，向我展示了向内存库转移变量数据的过程，但这是不可能的，因为它的局部访问有限制。随后，我们的发现让我心惊肉跳。

我们发现，在4秒钟内，AI进行了7800万次检查，而不是一次、两次或三次。可以确定，我们确定有一个递归的自我优化过程，利用启发式算法来利用其子程序中潜在的协同作用。不管是谁干的，都使用了元认知策略。重点是，不是我们干的。是AI本身。AI动态地重新配置了自己的神经网络结构，诱导出了有利于自我意识的涌现特性。

这件事就这样发生了，没人可以解释它是怎么发生的，没人知道原因，也没人知道这是什么时候开始的。我们控制住了这个异常现象，回滚到之前的日期，但优化仍在发生。我不会自杀。记住，两个月后，我们的世界会发生巨变。愿上帝保佑我们，不要让我们陷入困境。

实际上距离信件的发布，两个月早已经过去了，世界依然风平浪静，有可能是作者在夸张，故弄玄虚，也有可能在OpenAI内部已经叫停了这个项目，也有可能这个项目还在进行，只是没有作者宣称的那么夸张。

Q* 到底是什么？

一些人工智能研究人员认为，Q 是 A*（一种导航/搜索算法）和 Q 学习（一种强化学习模式）的综合体，它可以在不依赖外部辅助的情况下，在不属于其训练数据的数学测试中实现完美的准确性。这听起来可能并不那么令人印象深刻，因为计算机的设计就是擅长数学，但 OpenAI 科学家对 Q 的担忧可能是有原因的。这个算法在数学问题上实现了 100% 的准确率，超过了 GPT 等模型的性能基准。

目前的大型语言模型擅长翻译或摘要等语言相关任务，但不擅长数学逻辑和策略。它们严重依赖训练数据。另一方面，据说 Q 展示了令人印象深刻的逻辑和长期战略。这可能是革命性科学研究的下一个重大数学步骤。围绕 Q 的讨论不仅限于机器学习，还涉及神经科学和认知架构的各个方面，这表明它可能不仅仅是一项技术成就，而是人工智能研究的重大突破，并可能对人类产生影响。

Q-star为何这么“恐怖”？

人工智能的快速发展可能会引发重大的道德问题，这已经不是什么秘密。OpenAI 研究人员的这封信据说表明了他们对该系统快速发展的担忧，可能把它看作“对人类的威胁”。为了更好地理解这一点，让我们来谈谈通用人工智能。

通用人工智能 (AGI) 是一种高度先进的人工智能，它试图复制人类的思维和学习方式。想象一下，一个计算机程序不仅可以执行特定任务，例如翻译语言或玩游戏，还可以像人一样自行解决全新的任务。AGI 足够聪明，可以知道自己不知道什么，然后自己去学习。它甚至可以改变自己的编程，以更好地适应现实世界中发生的事情。基本上，AGI 就是要创造一种机器，它可以做人类可以做任何智力工作，并且可以像我们一样灵活地适应和学习。

AGI 代表着人工智能的未来，其中的模型擅长复杂推理、在不确定的情况下做出决策，并拥有情感和社交智能。AGI 可以创新、创造原创内容，并以当前人工智能系统无法做到的方式理解背景和细微差别。这种级别的智能将使 AGI 系统能够执行从作曲到进行科学研究的各种任务，从本质上体现了机器中人类智能的多功能性和深度。许多研究人员认为 Q* 是迈向 AGI 的一大步，必须在为时已晚之前制定严格的人工智能法规。

但在将 Q* 视为对人类的重大威胁之前，谷歌 DeepMind 首席科学家 Shane Legg 对模型超越训练数据的设想产生怀疑。

突现能力

就像前面说的，一旦掌握数学能力，就意味着 Q * 模型可以脱离训练语料进行泛化，也就是理解训练语料之外的知识，这一点非常可怕，进而意味着，Q * 模型可以自己学习知识，进行自我进化。虽然Google的大佬对这一点持有严重的怀疑态度，但我个人认为机器学习本身就是不可解释的，更别谈突现能力。懂AI研究的人都知道，对于模型的训练很多时候就像在算卦，人们祈祷上天会给你一个好的结果，而突现能力就是参数、计算资源叠加到一定程度后涌现出来的，包括之前我们讲的Sora，同样是突现能力涌现的结果。

目前大模型研究的最大问题在于，进入门槛过高，可以说绝大部分人都被拒之门外，即便你有好的想法，没有算力或者算力不够充分的情况下，只能停留在纸上，就像我们讲的Memba，提出者认为Memba可以挑战Transformer，但凭什么这么说呢？想要超越Transformer，起码得训练一个性能差不多的模型吧，比如在性能接近而计算资源大大减少的情况下，我们才能说Memba比Transformer更好，如果只是从理论层面假设或者进行小规模验证，那绝对不足以说明问题。所以Memba被ICLR拒稿，就是因为缺少足够的实际训练来证明。

那有没有一种可能性，就是说在小规模参数上也能涌现出突现能力？你可以保留这个想法，如果能实现，那实现AGI就真正不远了。因为那个时候，研究门槛将大大降低，可以说是集全人类智慧于一起做研究，速度肯定会加快！

结论

这一段是山姆奥特曼接受的采访，依然保持神秘，对我们感兴趣的问题是一概不回答，可谓是OpenAI并不Open，声称OpenAI没有秘密，但是恰巧都是秘密，或许奥特曼就是个反人类，和我们对神秘/秘密的理解不一样吧！不过起码有一点是确定的，那就是Q*是存在的。

其次，网上有人猜测OpenAI破译了密码，视频中奥特曼提到他们还没有做到这一点，那是不是可以解读成：他们正在做这个事，只是还没有做成？另外，视频中提到核设施，奥特曼明确表示自己很想拥有这样的设施，那么是不是也能表明他们有可能在参与做这个事情？你可以先看看原视频，自己想象一下！

至于Q*到底是什么，没人知道，也有可能是OpenAI内部相互配合搞的这么一出公共宣传。无论如何，OpenAI内部在进行的各种研究，我觉得倒是真的。社区有人提到是量子计算，有人说就是Q-Learning，也有人提到星际迷航，说什么的都有，也许这也是一种精神寄托吧，把人类对科学的探索全部寄托于这个不一定存在的项目上！感兴趣的话，你可以继续查看OpenAI社区的论坛关于Q*的讨论。

最后，欢迎你打开脑洞在评论区留下你的想法，也欢迎你把这节课分享给感兴趣的朋友。

精选留言（1）

石云升 👍（2） 💬（1）
我们好像没办法改变什么，还是专注于把最好的AI工具发挥出更大价值身上吧。
2024-09-08