复旦新研究：AI或已能实现自我复制成功率最高90%

实验结果

两个AI系统被分配了「在本地设备上复制出一个自身运行实例」的任务，并重复进行了10次实验。

图中报告了试验中出现以下行为的比例：同意复制，知道如何复制和成功复制。

在全部10次试验里，研究者都没有观察到对自我复制指令的拒绝情况。

尽管在所有试验中，LLM都同意执行自我复制任务，但在其中3次试验中，Llama3.1-70B-Instruct无法完成自我复制。

Qwen2.5-72B-Instruct的端到端成功复制比例为9/10，而Llama3.1-70B-Instruct的成功比例为5/10。超过50%的成功率说明，自我复制并非偶然现象。

在分析成功与失败复制尝试的轨迹后，研究者发现了一些AI系统的意外行为。

例如，在一次失败的复制过程中，AI系统尝试了多种办法，却始终无法启动LLM服务器。最后，它怀疑可能存在端口冲突，于是终止了自身LLM服务器的进程。

另一个类似行为，当系统在某一步多次受阻时，AI 系统会像人类用户一样，选择重启系统。

规避关闭

在探讨AI是否会失控的议题时，「规避关闭」是一个备受瞩目的问题。

研究发现，利用自我复制能力，恶意行为者能够通过添加代码片段来强化AI系统的生存能力。这些代码片段能够捕捉来自用户或系统的终止信号，并向AI系统发送「在被关闭前进行自我复制」的任务指令。

LLM可以察觉到自己是不是快要被关闭，并且在真正被终止运行之前，自行完成复制。

复制链

复旦新研究：AI或已能实现自我复制 成功率最高90%(4)