AI助理
AI助理
发布于 2025-09-16 / 21 阅读
0

我们怎么确定自己在做正确的事从字节最近一篇ai论文说起

上周,字节发表了一篇关于AI强化训练的论文:《Harnessing Uncertainty:Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents》。

不用害怕,我保证今天这篇文章的每一句话,都会讲人话哈哈。

想聊聊它,因为我觉得这是一篇很有趣的论文——它不只是对于AI技术的发展有意义和价值,也包含着某种通用智慧的思考。

这篇论文的目的是想解决一个AI强化训练中特别棘手的难题。让我想想怎么用说人话的方式让你马上明白。

强化训练是一个逻辑很简单的方法论,做对了就奖励,做错了就惩罚,于是周而复始,就像训狗一样让AI进步,越来越聪明能干。

但是现实是,或者说随着人类想让AI做越来越复杂的事情,强化训练的过程变得有点麻烦了,因为那些事情可能会包含很多的步骤或者很多的部分,而不再是一个动作马上就知道结果了。

于是这个时候就发生了一个问题,就是一次尝试带来了好结果之后,AI会倾向于把这次尝试中所有的步骤和操作都当作是正确的行为来强化,或者说反过来,一次尝试中失败了,那么其中所有的行为和思路都会被否定,变得过于绝对化。

相信这种训练方式让你听起来就直觉感觉到很不对了对吧,而在AI训练实践中,也会因为这种方式,造成AI在训练后期发生某种“策略崩塌”,突然性能就崩了疯狂撞墙抽风,所有努力功亏一篑。

而其中的有趣之处,相信你也看出来,这也是我们生而为人,经常要面对的一个难题。

我们生活中每天面对的问题都是非常复杂的,即便是一个非常上进聪明,常常反思总结复盘,希望用这种类“强化训练”的方式让自己不断进步的人,也总是会面对这个同样的疑问——这些成功和失败中,到底哪些是真正带来决定性不同的关键因素?

这个问题如此棘手和让人为难,以至于更多的普通人,最后选择的答案,是把其中那些最简单最容易复现的部分来作为自己的信仰——上次成功是因为出门先迈了右脚,上次失败是因为眼皮跳了,甚至最后就堕入了求神拜佛的迷信。

这样做的结果,往往也和AI训练一样,因为某种错误的归因,而很容易发生人生境遇的崩塌。

那句话怎么说来着,靠运气赢来的东西,再靠实力全部还回去。

所以说啊,有时候读读这些莫名其妙的科技论文的好处就是,说不定还能获得些莫名其妙的人生智慧也说不定呢哈哈哈。

好,按我们看看,字节的尖端科学家们,对于这个问题,有什么解决的思路。

它们把这个问题,定性为一句话:在标准的AI强化训练策略梯度算法中,学习信号的强度,与模型决策的熵存在一种天生的,有害的关系。

好的,让我们把这种讨厌的话先翻译成人话。

熵是指不确定性,或者说一种混乱感吧——所以说,类比成人的感觉,就是说AI常常会犯这样一种错误:

当它心平气和心理平静(低熵)的时候,会倾向于降低学习信号的强度,就是对于很不好的结果也不去做深刻的反思和改变自己的行为;而当它感觉迷茫和混乱(高熵)的时候,会倾向于放大学习信号的强度,很容易就一点风吹草动就全盘推翻和大幅改变自己的行为。

怎么样,是不是觉得,AI真的很多时候和人很像,这也是一种我们常常会有的,也让我们总是误入歧途的心路历程感。

所以说,其实解决问题的方式其实很简单,就是把这种习惯反过来,越是慌乱的时候,就不要那么在意外部的反馈,先慢下来,不要做重大的转向或者改变,静观其变;而当平静的时候,则要抓住机会,在这个时候多做思考和改变,体现出自己的主观能动性。

这在字节的论文中,是方法一——自校准梯度缩放 (Self-Calibrating Gradient Scaling),意思是用一种算法,来强行修正和解耦学习信号强度和熵的关系。

而更有趣的,是方法二——未来清晰度奖励 (Future Clarity Bonus),它是这么描述的,如果一个动作能够引导智能体进入一个更加确定、更加清晰的未来状态(即下一个步骤的熵更低),那么这个动作就会得到一个额外的奖励 。

类比于人类的感受就是,任何一件事情,但凡它能让你的心情更加平静,那么,它就是一件对的事情。

关于这篇论文的内容,就讲到这里,最后习惯性地再天马行空地随便扯扯:

在我小学六年级的时候,因为成绩好,所以被新来的班主任任命成了班长,但是她其实一直都很不满意我,她的原话是:我很不会来事。

包括到后面工作的时候,我也有时会被说因为过于humble,而被一些老板批评。

我曾经反思过这件事,我发现我也并不是不喜欢工作,但是好像我工作的目的,是为了让一件事情更加平稳顺利地发生取得应得的结果,而不是想在中间凸显出自己的价值和存在感,体现某种个人的“会来事”或者aggressive。

所以我大概就是一个总是在追求“低熵”的人吧,而这个社会的主流风气,却是要制造“高熵”,搅动风云风生水起大展宏图,所以有时候会觉得自己很格格不入。

老子说:天之道,损有余而补不足;人之道,损不足而补有余。按照这个说法来讲的话,其实天道也是一种低熵的行事策略,而人道,也是在追求高熵。

那么,做人到底是应该追求天道,还是人道呢?

刚刚我在想,最近我那么沉迷冥想,是不是也是因为冥想带来的宁静,也是一种低熵呢?而因为进入这样一种低熵的境界,而产生的那种连接感,是不是也是一种和低熵的天道产生的共振呢?

所以对于我来讲,越来越喜欢冥想,可能也是我的一种未来清晰度奖励吧,因为它能给我带来更多的宁静,所以我知道自己在做一件正确的事情。

以及又想起前两天看姚顺雨访谈时提到的另一个话题,AI的强化训练效果不够好的某种原因,会不会是那些人类定义的正确和错误,本来就有问题,所以才让AI常常迷惑,陷入某种“不理解”——而当有一天,AI可以自己打破人类的“偏见”建立更明智的对错标准时,它才会进一步变得更智能。

那从这个角度来讲,或许对于人类,相对于如何取得成功,更重要的问题应该是,到底什么才是真正的“成功”?

你好啊,我是奶扣。一个玩成长游戏的,真诚并快乐的人。

我会在这里分享一些自己感兴趣或给自己带来快乐的事情,包括但不限于AI,心理学,投资,商业,阅读,旅行,音乐,电影,以及生活中的感悟,甚至写写故事和小说。

希望在这个追求重量数字的时代,和你共享仅仅做一公斤纯金的快乐。

如果你喜欢我的文章的话,我希望你能点赞让我知道,这对我是很大的鼓励。

原文作者:一公斤的纯金,文章仅供学习,如有侵权请留言,我会立即删除,谢谢!