上周,字节发表了一篇关于AI强化训练的论文:《Harnessing Uncertainty:Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents》。 不用害怕,我保证今天这篇文章的每一句话,都会讲人话哈哈。 想聊聊它,因为我觉得