导航菜单
首页 >  OpenAI公开破解GPT  > OpenAI公开破解GPT

OpenAI公开破解GPT

OpenAI公开破解GPT-4思维的新方法,Ilya也参与了! 西风 2024-06-07 16:37:58来源:量子位

解构GPT-4内部表征为1600万个可理解特征

西风 发自 凹非寺

量子位 | 公众号 QbitAI

OpenAI研究如何破解GPT-4思维,公开超级对齐团队工作,Ilya Sutskever也在作者名单之列。

OpenAI公开破解GPT-4思维的新方法,Ilya也参与了!

该研究提出了改进大规模训练稀疏自编码器的方法,并成功将GPT-4的内部表征解构为1600万个可理解的特征。

由此,复杂语言模型的内部工作变得更加可理解。

OpenAI公开破解GPT-4思维的新方法,Ilya也参与了!

其实,早在6个月前,研究就已经开始进行了:

OpenAI公开破解GPT-4思维的新方法,Ilya也参与了!

OpenAI将其公开后,前超级对齐团队成员、论文一作前来转发分享:

我们引入了一种基于TopK激活函数的新稀疏自编码器训练技术栈,消除了特征缩减问题,并允许直接设置L0。

我们发现这种方法在均方误差/L0边界上表现良好。即使在1600万的规模下,也几乎没有失活的潜在单元(latent)。

OpenAI公开破解GPT-4思维的新方法,Ilya也参与了!

同样在坐着名单里的、此前在OpenAI超级对齐团队的Ilya同盟Jan Leike(就是从OpenAI愤而离职刚刚加入Anthropic的RLHF发明者之一)也表示:

这是一项重大的进步!稀疏自编码器是目前用来真正理解模型内部思维的最好的方法。

OpenAI公开破解GPT-4思维的新方法,Ilya也参与了!

更有意思的是,不久前Anthropic发了一项类似的工作。

成功从Claude 3.0 Sonnet的中间层提取了数百万个特征,为其计算过程中的内部状态提供了一个大致的概念性图。

OpenAI公开破解GPT-4思维的新方法,Ilya也参与了!

于是有网友就开麦了,工作牛是牛,但OpenAI是不是有点太着急了,论文

相关推荐: