2025年3月思考笔记
2025年3月思考笔记 DeepSeek R1 论文的设计与工程启示 2025 年 03 月 01 日 - 13:11:41工程思考 架构上的工程意义优于算法意义,为工程实践提供了许多参考价值。 设计思考 强大的模型蒸馏可以得到非常不错的效果。 要超越智能的界限,仍需强大的基础模型和更大规模的强化学习。 推理大模型倾向于在回答问题前,先将问题分解为更小的步骤。 仅靠强化学习,不经监督微调,大模型也能涌现出强大的推理技能。 为模型提供一些参考性的思考笔记也很重要。监督微调能在一定程度上解决输出的思考过程可读性差、偶尔中英混杂的问题。 最小干预模板能指导模型自由探索不同的解题思路,不限定思考方法,可能会带来很多惊喜。 简单直接的奖励方式:准确度奖励(数学问题的回答)+ 格式奖励(易于理解的思维链)。将“思考过程”放在特定标签(如 <think>...</think>)内,答案放在 <answer>...</answer> 内,无需额外训练一个独立的奖励模型,就像固定的高考筛选机制一样,简单有效。 R1 同时公开了基于 R1 蒸馏的六个小模型,这些小模型也具备了一定的推理能力,在某些场景下甚至超过未经蒸馏直接强化学习的小模型,这为未来的模型应用场景提供了一些思考。知识蒸馏结合强化学习,能让小模型在许多应用场景下产生出乎意料的效果。 #格物/AI模型解析 AI 的多模态与跨领域融合趋势 2025 年 03 月 01 日 - 16:30:25 大模型平台 + 领域微调 + 知识蒸馏,未来的微调趋势可能是领域监督微调结合参数高效微调(如 LoRA)。 从文本领域走向多模态是一种趋势,人机交互愈发受到重视,大批交互工具(如 Cursor)正在解决这个问题。扩展至语音、视频等多模态也是必然趋势,AI 的终极形态是全感官 AI。 跨领域知识整合也很重要,许多复杂的现实问题依赖于不同专业领域知识的融会贯通。 模块化趋势或许会借鉴专家混合(Mixture-of-Experts, MOE)等架构,让不同模块专攻不同任务,从而提升整体效率和表现。这种方式也可以和不同领域的知识链接或结合。 对于小模型而言,蒸馏的效果通常比直接强化学习更好,也更节约成本。蒸馏技术能将大模型的能力有效转移到结构更小、计算效率更高的小模型上,使它们在实际应用中也能达到较高的性能水平。 #格物/AI技术趋势 Web3 核心:智能合约与数字货币周期 2025 年 03 月 01 日 - 23:10:11 区块链衍生出许多技术,但就 Web3 发展而言,核心是智能合约。智能合约存储在区块链上,充当自动化的业务逻辑,一旦满足条件即可执行。Web3 的形态可以理解为社区驱动、自给自足的经济形态。...