2023年底,OpenAI经历一场高层震动,执行长山姆奥特曼被解职后又迅速复职,原因可能与秘密AI项目“Q*”有关;该项目被视为潜在威胁,后更名为“Strawberry”并低调推进;预计“Strawberry”将于2024年秋季发布,其能力或将超越现有AI技术……
去年底,OpenAI经历了一场震动科技界的风波。公司执行长山姆奥特曼(Sam Altman)一度被董事会解职,随后又迅速复职。这场风波的背后,据传与一个代号为“Q*“的秘密AI项目有关。这个项目被认为可能会对人类构成潜在威胁,引发了公司内部的激烈争议。
在奥特曼复职后,“Q*”项目被重新命名为“Strawberry”(草莓),并继续低调推进。最近的报导显示,Strawberry可能会在2024年秋季正式亮相,其能力据说将远超当前所有的AI模型。那么,Strawberry到底有什么特别之处,又将如何推动AI技术的发展呢?
解决复杂数学题
根据科技媒体The Information的报导,Strawberry可能会在2024年秋季发布,并有望整合到ChatGPT中。Strawberry的能力令人瞩目,它据说能够解决现今大型语言模型难以应对的问题。例如,它可以解决从未见过的数学题、协助制定市场营销策略,甚至破解复杂的文字谜题。在衡量AI数学能力的MATH基准测试中,Strawberry的得分超过90%,远超GPT-4的53%和GPT-4o的76.6%。
Strawberry的一个重要特点是它能够处理长期任务(Long-horizon Tasks)。面对复杂任务时,它不仅能做出计划,还可以借助电脑代理程序(Computer-Using Agent,CUA)自主上网搜索资料,并根据搜索结果采取行动,在较长时间内执行一系列相关操作。
通过数据自我学习
在训练方法上,OpenAI采用了一种名为“深度研究”(Deep Research)的专门化数据集,对Strawberry“后训练”(Post-training)。这意味着在完成大量常识数据的预训练后,Strawberry又接受了特定领域知识的后续训练,以增强其在专业领域的理解能力。OpenAI还计划让Strawberry执行软件和机器学习工程师的工作,以测试其实际效果。
Strawberry的训练方式类似于斯坦福大学在2022年开发的“自学推理者”(Self-Taught Reasoner,STaR)。STaR通过反覆建立训练数据来自我学习,逐步提升AI模型的推理能力,目标是达到甚至超越人类智慧的水平。
未来AI发展将经历5级演进
OpenAI对AI发展的未来构想中,将AI的演进分为五个层级:聊天机器人、推理者、代理者、创新者和组织者。
● 第一级:聊天机械人(Chatbots),具有一般对答能力的AI。
● 第二级:推理者(Reasoners),拥有人类水平解难能力的AI。
● 第三级:代理者(Agents),能够采取实际行动的AI。
● 第四级:创新者(Innovators),可协助人类创新发明的AI。
● 第五级:组织者(Organizations),可以完成组织工作的AI。
目前的ChatGPT属于第一级AI,而Strawberry很可能是帮助OpenAI实现第二级AI的关键。奥特曼曾指出,AI领域最重要的进展将围绕推理能力展开。不仅OpenAI,其他科技巨头如Google、微软,以及众多AI研究实验室都认为,提升AI的推理能力是释放大型语言模型潜力的关键。
然而,也有持不同观点的研究人员。例如,Meta首席AI科学家杨立昆(Yann LeCun)认为,像ChatGPT这样的大型语言模型永远无法达到人类般的推理和规划能力,因为它们对物理世界缺乏了解,对逻辑的理解也非常有限。
尽管外界对Strawberry议论纷纷,OpenAI官方并未正式承认其存在,只指出不断研究新AI技术是业界的常见做法。据报导,Strawberry已提交给美国国家安全官员审查,预计将于2024年秋季某个时候面世。
除了Strawberry,OpenAI还在开发代号为“Orion“的下一代模型,据说比GPT-4更强大。Strawberry在这个过程中扮演着重要角色,负责为Orion生成高质量的训练数据,以降低其回答错误率。
Strawberry项目的重要性不言而喻。它不仅是OpenAI克服AI推理能力局限的关键项目,也是开发下一代大型语言模型的幕后推手。如果Strawberry成功了,它将重新定义AI的能力——能够做出重大科学发现、开发前所未见的新型软件,并自主执行复杂任务。这意味着人类离实现通用人工智能(AGI)又近了一步。
然而,随着AI技术的快速发展,我们也需要警惕潜在的风险。如何确保AI的发展方向符合人类利益,如何平衡技术进步和伦理考量,这些都是我们需要认真思考和讨论的问题。无论如何,Strawberry的出现无疑将为AI技术的发展揭开新的篇章,我们拭目以待它将如何改变我们的世界。
Strawberry拥有推理能力
人工智能技术正在迅速发展,而OpenAI一直站在这一领域的前沿。最近,他们推出了名为“Strawberry”的AI模型系列,包括o1-preview和o1-mini。这一新模型的最大特点是具备“推理能力”,意味着它可以像人类一样,通过逐步推理来解决问题并提供答案。
想像一下,当你向AI提问时,AI不仅提供最终答案,还能展示它如何一步步得出这个结论。用户在使用ChatGPT时可以选择查看这个推理过程,这无疑为AI使用带来了全新的体验。
然而,OpenAI选择不向用户展示模型的原始思维过程。相反,他们采用了另一种AI模型,先对这些思维过程过滤和解释,然后再呈现给用户。这一决定引发了不少讨论,尤其在技术社区中,引发了人们对AI透明度的兴趣。
许多AI爱好者和研究人员都希望能够直接看到AI的原始思维过程。这就像是能够窥探到AI内部的“思维”。因此,一些技术高手试图通过“越狱”或“提示注入”等技术手段来揭示o1模型的原始思维过程。尽管有些人声称取得了部分成功,但目前这些尝试还没有得到充分验证。
OpenAI对此类探索行为采取了严厉措施。他们密切监控用户使用ChatGPT的行为,并对那些试图探究o1推理过程的用户发出警告邮件。即使只是单纯出于好奇而询问“推理”相关问题,也可能触发警告机制。
一些用户报告称,仅在与o1模型对话时提到“推理追踪”一词,或者试图询问ChatGPT关于推理过程的问题,就会收到来自OpenAI的警告邮件。这些邮件提醒用户,其请求可能违反了OpenAI的政策,并要求立即停止此类行为,否则可能会被禁用使用权限。
AI透明度和安全性问题受关注
OpenAI的这种做法引发了争议。部分安全研究人员指出,这阻碍了他们对AI系统做有益的安全测试。例如,Mozilla的GenAI漏洞赏金计划负责人Marco Figueroa就提到,他因为执行AI红队安全研究而收到了OpenAI的警告。这种情况让人担忧,因为安全研究对于发现AI系统中的潜在问题至关重要。
在此背景下,人们开始更加关注AI的透明度和安全性问题。OpenAI的立场似乎是在保护其技术的同时,也试图防止可能的滥用行为。尽管如此,这种限制性做法可能会影响对AI系统的深入研究,并引发了关于技术创新、安全性和开放性之间复杂平衡的讨论。
在OpenAI的博客文章《学习使用LLMs进行推理》中,公司解释了其对“隐藏思维链”的看法。他们认为,隐藏思维链为公司提供了一种独特的监控方式,使他们能够“读取”模型的思维过程。这些未经处理的过程对公司最有用,但出于多种考虑,他们并不希望将这些原始数据直接展示给用户。
OpenAI还指出,未来可能会通过监控这些思维链来检测AI是否存在操控用户的行为。然而,模型的思维必须保持自由表达,不能在这些链条上引入政策合规或用户偏好。这意味着,公司不会对这些原始思维过程调整或优化,同时也不会让这些未经调整的链条直接展现在用户面前。
◆图:互联网