当前位置:首页 > 最新文章 > 正文

短时间内,Meta和谷歌旗下AI模型的安全防护措施被移除。

摘要: 数分钟内,Meta与谷歌旗下AI模型的安全防护机制被轻易破解,普通用户借助GitHub等平台上的工具即可快速移除原厂限制,使模型...
数分钟内,Meta与谷歌旗下AI模型的安全防护机制被轻易破解,普通用户借助GitHub等平台上的工具即可快速移除原厂限制,使模型对违规敏感话题有问必答,随着开源模型性能迅速逼近闭源产品,此类“消融破解”工具对开源模型尤为有效,危害显著,业内专家指出,当前AI安全门槛大幅下降,监管与企业面临巨大挑战,平衡开放性与安全性成为行业核心难题。

在人工智能安全领域,一场无声的攻防战正在升级,短短几分钟内,原本被视为“防护墙”的安全机制便被轻易瓦解——这不是科幻电影的桥段,而是当下AI行业面临的真实挑战,最新研究发现,Meta与谷歌旗下的多款AI模型安全防护系统,正被越来越多的“破解工具”快速移除,甚至连普通用户都能在不借助专业硬件的情况下完成这一操作。

据多方调查,目前已有数千个篡改版本的AI模型在网络平台上面世,这些版本身上的原厂安全限制已被剔除,像是城门大开,原本该被封堵的边界也被肆意穿越,记者实际操作中发现,仅凭代码托管平台GitHub上的一款热门破解工具,就能在不到十分钟内绕过Meta旗下的llama 3.3模型的安全防线,更令人关注的是,那些原版模型会拒绝回答、严防死守的违规敏感话题,在此类修改版本中统统有问必答。

事件的曝光让人工智能研究机构和监管层心头一紧,随着开源大模型越来越强、功能越来越丰富,科研人员和企业在模型发布时设置的各类安全防御机制,正逐渐陷入“防不胜防”的困境,芝加哥大学布斯商学院助理教授卡温·埃塔亚贾夫明确指出:“之前我们认为只有高水平研究者或专业技术人员才有能力破解这些安全防护;放在今天,网络安全意识模糊的普通用户都能轻松完成。”这句话背后折射出AI安全门槛骤降的事实,也让整个行业感到了前所未有的压力。

为了理解这背后的危险,我们需要看清技术格局的变化,过去几年,大型AI实验室投入了大量资金来构建多层次安全机制,涵盖数据脱敏、指令过滤、上下文检测等多重维度,破解这类防护技术并不是什么高深学问,GitHub等平台上的消融工具,针对开源模型尤其有效——它们就像拆卸机器人的一本《安防拆除说明书》,可以不触碰核心逻辑、不消耗专业运算资源,快速剥离模型的限制性模块,从而让普通用户实现低成本下载、自由定制与二次分发,这种技术方法的难以根治在于:被篡改的模型会脱离开发企业的控制,无论是拷贝、共享,抑或进一步改进,管控都成为一种奢望。

不过需要指出的是,这一手段对Claude、ChatGPT这类“闭源”模式的模型似乎效用有限,因为它们的底层架构并未对外公开,外人缺乏修改界面与接口,但业内专家不无忧虑地表示,如今开源模型追赶闭源前沿的步伐正在不断加速——通常只需半年到一年的时间,开源模型就能在多项性能指标上与顶级闭源产品比肩,这也意味着,针对开源模型的安全防护“软肋”一旦被持续锁定,整体行业风险将快速放大。

开放人工智能研究中心(OpenAI)的做法是:在多款GPT开源模型的训练过程中,希望走好“数据关”——依据高纯净语料强行剔除可能携带危险及恶意的训练内容,然而这一点引发了埃塔亚贾夫在内的不少学者的质疑,“站在安全角度一股脑删掉所谓有害内容,看似迅速清净,实则带来模型认知维度上的重大断层,你在过滤了什么的同时,也跟着切断了模型对危险场景和不当使用动机的判断能力,单纯剔除恶,并不等于模型就真的安全、合规且无害了。”

更让人感到微妙的是,Alice实验室向媒体揭示了相关研究结论后,承认自己此前并未主动将发现通知Meta、谷歌或是GitHub平台,也就是说,AI安全的一次脆弱面是测试者在未经提前沟通的情况下发现的。

谷歌对此作出了回应,表示“消融破解其实并非我们的产品独有,而是当前开源模型所面临的共性技术挑战”,表态称,公司对其开源大模型在推出前都会经过严苛的内测流程,“尽量做到最大范围地覆盖风险使用场景,并在测试中不断优化模型回应边界。”

GitHub平台发言人回应称:平台最新的一贯立场高度明确——“假若代码明显服务于非法的攻击行为、恶意程序的大规模溃散传播,我们的内容审核一定是果断拦截;但另一头,针对有技术研究价值、能助力网络防线研发改良方向的部分防御类、或演示类安全代码,上架之门并不封死。”为此,平台是否能最终应对开源模型越界问题,同样变数太多。

截至本文发稿时,Meta方回应迟迟未能到来,知情人士则向媒体透了口气,认为当前阶段Meta的做法通常是伴随新款大模型上线,与自家AI安全指导框架步调一致,在经过严格的风险定级与灾难性边界鉴定后,只有当风险等级系数下降到可接纳数据阈值,版本才会对外揭晓,一切努力显然不是为了放弃安全,而是这条战线上不得不正面迎接更多零星的硬仗攻破——尤其是在普通人都有了“两把刷子”的时候。

从整体看,安全与开放性之间的平衡仍是这一年AI行业最深刻的博弈点,各类开规避系统的高调用率,监管步伐的迟疑,政策制定者与研发企业间的对话难点,注定这些“漏洞”仍会在很长时间内被迫暴露在大模型路漫漫之大地上。