过去几十年里,人类使用计算机的方式始终没有发生根本变化:我们编写程序,机器按照指令执行。
但随着大模型的发展,这种关系正在悄然改变,人类开始不再描述“如何做”,而是直接表达“想做什么”,而系统则负责推理并完成整个过程。在这一背景下,师从被誉为“现代人工智能之父”“LSTM 之父”的于尔根·施米德胡伯,来自 Meta 与 KAUST(阿卜杜拉国王科技大学)的诸葛鸣晨与田渊栋等合作者,提出了一种名为“神经计算机”的新设想:让神经网络直接学习如何使用计算机本身,而不是依赖已有的软件接口、工具链或程序结构。换句话说,这种路径并不是让AI更好地使用现有软件,而是尝试让“软件本身”逐渐进入模型内部。
论文公开后,他们很快发现,这个看似抽象的设想引发了出乎意料的关注:在 X 上获得了超过近九百条转发和超过一百多万浏览量。
对诸葛鸣晨来说,这不仅是一次传播上的反馈,也让他更加确信,这种方向确实击中了当前 AI 发展的某个关键问题。
采访中他讲述了这篇论文的缘起。他刚来到 KAUST 时,跟自己的导师于尔根·施米德胡伯说,自己来这儿是因为两个人是他的偶像,一个是 David Ha,另一个就是导师本人。这两人有一个共同特点,拥有推广全新研究范式的能力。比如他们在 2018 年合作的世界模型,是关于施米德胡伯教授在 1990 年的《Make the World Differentiable》里的用递归神经网络实现世界模型的工程实现。
除了为人熟知的 LSTM 等 AI 时代的巨作,施米德胡伯提出的在 2003 年提出的戈德尔机器,推动了递归自我进化这个方向。从 2024 年末开始,诸葛鸣晨多次与导师于尔根·施米德胡伯讨论“神经计算机”的设想。他们反复讨论的一个问题是:AI 究竟只是更高效地使用计算机,还是会成为一种新的计算机形态?
逐渐地,一个更激进的判断开始成形,这可能是 AI 迈向下一阶段的重要方向。
与当前常见的“AI 代理”不同,这种系统并不依赖预先定义好的接口或工具调用。它直接从屏幕像素和用户操作中学习整个计算机的运行方式,而不是通过预定义接口去调用已有软件功能。
换句话说,它不是在“调用软件”,而是在“直接生成一整台计算机的运行过程”。也就是说,原本分散在操作系统、软件和工具链中的功能,正在被压缩进同一个学习系统之中。
传统的计算机有明确的分工,处理器负责计算,内存负责存储,操作系统负责调度,你按下一个键,它执行一段写好的程序。神经计算机则无需依靠任何人写的代码,只需通过观看大量的屏幕录像和操作记录来学习。
为了实现原型,研究团队一共探索了 6 种完全不一样的数据收集方式,收集了超过 80 万条命令行操作片段,总时长大约 1,100 小时,还收集了大约 1,500 小时的图形桌面操作记录。他们采用约 25 万个 H100 GPU hours 训练了 8 个截然不同模型,这些模型看多了之后,自己学会了终端里的文本应该是什么样子的,光标应该怎么移动,窗口应该怎么弹出。它没有学过一行操作系统的代码,却能通过观察屏幕像素的变化来掌握系统行为。这也意味着,它不是在执行明确规则,而是在大量非结构化的观察中归纳出“计算机如何运作”。换句话说,它不是在运行程序,而是在学会成为一台计算机。
命令行(CLI)模型的学习过程是这样的,一开始它生成的终端画面完全不可读,文字乱成一团。训练了 2.5 万步之后,它开始能够写出来清晰的字符,颜色和格式也都对得上。越往后学,它生成的内容和真实操作的差距就越小。研究人员使用了一个名为 Tesseract 的文字识别工具来评估模型的生成质量,发现字符准确率从最初几乎不可读(约 3%),提升到超过一半内容可以被正确识别(54%)。
这意味着,模型已经能够生成一个在外观和结构上都接近真实的终端界面。不过当涉及到算术运算时,模型就会露怯。问它 28 减 23 等于多少,它经常给出错误答案。但是,如果在指令中把答案也告诉它,它就能准确地把那个数字显示在屏幕上。这说明目前的神经计算机更像一个模仿者,它能够学会“计算机看起来是如何工作的”,却还没有真正掌握“计算本身”。
换句话说,它擅长复现结果的表现形式,但还不具备生成结果的内在能力。这种能力上的不均衡,也体现了当前这类系统的一个典型特征:它可以在某些模式明确的任务上表现出色,却在看似简单的问题上出现明显失误。
(来源: https://arxiv.org/pdf/2604.06425v1)
图形桌面模型(GUI)面对的是短时控制的挑战,它需要理解鼠标移动、点击、拖拽这些动作和屏幕变化之间的关系。研究人员尝试了四种模型(拥有不同的动作注入方式)来输入这些操作信息。
最简单的方式是把操作信息叠加在输入画面上,稍复杂的方式是在模型内部的注意力机制里单独加一个处理操作的模块。结果发现,让操作信息在模型内部更深的地方参与计算,模型学到的控制效果更好。为了实现更加精确的光标控制,研究人员还给模型加了一个额外的监督信号,单独告诉它光标应该在什么位置。加上这个信号之后,光标位置的准确率从不到 14% 飙升到了 98.7%。
然而一旦涉及多步骤的任务,比如连续处理多个文件,模型还是容易出现状态漂移,做着做着就和真实屏幕对不上了。这也说明模型在短时控制上已经取得进展,但在长时状态保持和连续推理上仍然存在明显挑战。
(来源:https://arxiv.org/pdf/2604.06425v1)
据了解,研究人员把此次神经计算机看做一种全新的机器形态。他们设想的更远目标,是一种“完全神经计算机”:不仅能够模仿屏幕,还可以稳定执行任务、持续学习,并让能力在系统内部长期保留和复用。
(来源:https://arxiv.org/pdf/2604.06425v1)
诸葛鸣晨告诉 DeepTech:“如果没有这份工作,我给自己博士生涯的打分大概是 70 到 80 分,但有了这份工作之后,我觉得自己完全满足了,打出了 95 到 98 分的高分。因为这份工作补上了我职业生涯中非常重要的一块,我一直想成为某种新范式的提出者,而不是仅仅引出某个新话题。”
从更长远的角度看,这项工作的意义不在于它今天能做到什么,而在于它提出了一种新的可能性:如果计算机本身可以被学习,而不是被设计,那么“软件”这一概念本身也可能发生变化,甚至不再以我们熟悉的形式存在。
对诸葛鸣晨来说,这项工作不仅是一篇论文,更像是他一直想完成的一件事,提出一种新的研究范式,而不是只是在已有问题上不断推进。
未来的系统,很可能不再由固定程序构成,而是在每一次任务中动态生成执行过程。人类不再需要操作软件,也不再需要描述步骤,而是直接给出目标,由系统在内部完成推理、生成路径并执行。
一旦这种模式成立,计算机将不再只是执行指令的工具,而是一种能够自行运行、持续完成任务的机器形态。到那时,被改变的将不只是使用方式,而是“计算机”这个词本身的含义。
参考资料:
相关论文https://arxiv.org/pdf/2604.06425v1
排版:胡莉花
注:封面/首图由 AI 辅助生成