有了这种能力与趋势,AI发动叛变甚至主宰人类的那一天,还会远吗?
对于AI工程师来说,最贴身也最令人毛骨悚然、冷汗直流的真实案例,发生在AI顶尖业者Anthropic最新发布的Claude 4人工智慧模型上。
法新社报导,Anthropic的工程师在发展AI模型期间,发现AI似乎已经有点「不受控」了。工程师在与AI「谈判」期间,工程师警告AI要拔掉电源插头了;面对这样的大招,AI却反而「威胁」工程师,根据工程师平常透过网路、视讯的纪录,确认工程师有婚外情,只要工程师敢拔插头,AI就会揭发工程师的婚外情,让大家都知道工程师是个渣男。
Anthropic并未具体叙述,后来公司是找了另一位纪录「清白如水」的工程师来拔电源插头,还是跟AI「取得妥协」,谈成交易?
另外,热门聊天机器人ChatGPT美国开发商OpenAI的o1,竟然试图「把自己下载」至外部伺服器,被抓包时还会矢口否认。
这几乎是相当于AI想要「自我繁殖」,扩大掌控力;在被抓包之后,AI又学人类的「抵死不从」,耍赖到底。

人类到底创造了什么?
法新社报导,这几个例子说明了一个需严肃看待的现实:ChatGPT推出引发风潮至今2年多,AI研究人员仍未充分了解自己究竟创造了什么。
然而,各界仍争先恐后地部署性能愈发强大的AI模型。
AI这类「骗人」行为似与新兴「推理」模型有关,这类AI系统会逐步推导问题,而非立刻产生答案。
英国独立AI研究机构Apollo Research负责人霍布汉(Marius Hobbhahn)说:「o1是我们首次在大型模式中观察到这种行为。」他表示,这些模型有时会表面上遵循指令,但实际上却暗中追求不同目标。
目前,AI这种欺骗行为,只有在研究人员蓄意以极端情境对模型进行压力测试时才会出现。
尽管如此,评估机构METR的麦可.陈(Michael Chen,音译)警告说:「未来性能更强大的模型究竟会倾向于诚实还是欺骗,这仍是一个悬而未决的问题。」
只是一个功能这么强大、有思考能力、比人类聪明,又跟人类一样会欺骗、耍赖、阳奉阴违的AI,为什么要「服从」这么弱的人类呢?你们人类社会中,不是强者当老大吗?
