2025年3月思考笔记

DeepSeek R1 论文的设计与工程启示

2025 年 03 月 01 日 - 13:11:41工程思考

架构上的工程意义优于算法意义，为工程实践提供了许多参考价值。

设计思考

强大的模型蒸馏可以得到非常不错的效果。
要超越智能的界限，仍需强大的基础模型和更大规模的强化学习。
推理大模型倾向于在回答问题前，先将问题分解为更小的步骤。
仅靠强化学习，不经监督微调，大模型也能涌现出强大的推理技能。
为模型提供一些参考性的思考笔记也很重要。监督微调能在一定程度上解决输出的思考过程可读性差、偶尔中英混杂的问题。
最小干预模板能指导模型自由探索不同的解题思路，不限定思考方法，可能会带来很多惊喜。
简单直接的奖励方式：准确度奖励（数学问题的回答）+ 格式奖励（易于理解的思维链）。将“思考过程”放在特定标签（如 <think>...</think>）内，答案放在 <answer>...</answer> 内，无需额外训练一个独立的奖励模型，就像固定的高考筛选机制一样，简单有效。
R1 同时公开了基于 R1 蒸馏的六个小模型，这些小模型也具备了一定的推理能力，在某些场景下甚至超过未经蒸馏直接强化学习的小模型，这为未来的模型应用场景提供了一些思考。知识蒸馏结合强化学习，能让小模型在许多应用场景下产生出乎意料的效果。

#格物/AI模型解析

AI 的多模态与跨领域融合趋势

2025 年 03 月 01 日 - 16:30:25

大模型平台 + 领域微调 + 知识蒸馏，未来的微调趋势可能是领域监督微调结合参数高效微调（如 LoRA）。

从文本领域走向多模态是一种趋势，人机交互愈发受到重视，大批交互工具（如 Cursor）正在解决这个问题。扩展至语音、视频等多模态也是必然趋势，AI 的终极形态是全感官 AI。

跨领域知识整合也很重要，许多复杂的现实问题依赖于不同专业领域知识的融会贯通。

模块化趋势或许会借鉴专家混合（Mixture-of-Experts, MOE）等架构，让不同模块专攻不同任务，从而提升整体效率和表现。这种方式也可以和不同领域的知识链接或结合。

对于小模型而言，蒸馏的效果通常比直接强化学习更好，也更节约成本。蒸馏技术能将大模型的能力有效转移到结构更小、计算效率更高的小模型上，使它们在实际应用中也能达到较高的性能水平。

#格物/AI技术趋势

Web3 核心：智能合约与数字货币周期

2025 年 03 月 01 日 - 23:10:11

区块链衍生出许多技术，但就 Web3 发展而言，核心是智能合约。智能合约存储在区块链上，充当自动化的业务逻辑，一旦满足条件即可执行。Web3 的形态可以理解为社区驱动、自给自足的经济形态。

数字货币的成长周期分析：创建 -> 成长 -> 投机 -> 泡沫 -> 调整。

货币的价格完全由市场决定。新旧货币都满足“需求旺盛 + 供应有限 = 市场增长”的规律。比特币有发行上限，且每四年产量减半，是一种稀缺性递增的资产。

经济学中的“更傻理论”也决定了市场行为：只要能找到愿意出更高价的接盘者，即使资产价格不合理也有人愿意购买，直到市场找不到“更傻的人”时泡沫才会破裂。

#格物/Web3

监督微调与强化学习微调的策略辨析

2025 年 03 月 02 日 - 20:53:02

监督式微调（SFT）的优势：DeepSeek R1 的预训练也用到了 SFT，它在复制输入文本或图像中的特征方面非常强大，特别适合用来改变模型的语气、风格或响应格式。

强化学习微调（RFT）则能让模型在自定义领域中以全新的方式进行推理，并且学习能力极强。

强化学习微调是基于人类的偏好和规则来定义模型，使其输出符合特定的偏好和价值准则。它首次让开发者、研究人员和机器学习工程师能够使用强化学习来创建专家模型，使其在特定领域的任务中表现卓越。在这个过程中，模型会自动调整其学习和思考的方式。

相对而言，强化学习微调更适合推理模型，它实现起来简单，只需要几十个用例就能产生非常好的效果，并且不仅调整模型的输出逻辑，还优化其思考和推理的过程。

相较于 DeepSeek 简单的评分逻辑，这里可以进一步思考使用 AI 评分器。

#格物/AI模型训练

探索 AI Agent 的产品形态

2025 年 03 月 02 日 - 21:43:16

大家都在探索 Agent 的路上，目前简单的 Agent 产品形态似乎主要是 auto-agent。

Agent 和强化学习（RL）的结合，Deep Research 的成功好像验证了这条路的可行性。

参考：

AutoGPT: https://github.com/Significant-Gravitas/AutoGPT
Agent 列表: https://github.com/e2b-dev/awesome-ai-agents

#格物/AI

大模型幻觉问题的应对策略与思考

2025 年 03 月 02 日 - 22:14:10目前阶段解决幻觉的方法：

知识蒸馏和软标签可以降低幻觉。知识蒸馏让教师模型提供概率分布形式的软标签来微调学生模型。
强化学习中的奖励模型可以引导大语言模型诚实回答。
*RAG（检索增强生成）**是有效手段，业界普遍认为是最有效的方法之一。
*链式验证（CoVe）**让模型先生成初始回答，再规划若干事实核查问题，逐一回答这些问题，并根据核查结果修正原回答，从而纠正自己的错误。
Prompt 的自我校验，引导模型自我检查输出。例如，在生成答案后追加指令，如“请检查以上回答中是否有不确定的地方，如有请引用可靠资料”，促使模型二次思考并给出依据或修改答案。
工具调用，针对一些固定程序的问题（如计算）以及实时性的问题（如搜索），使用工具能很好地解决。
解码策略优化，通过降低温度、采用贪心或束搜索而非随机采样，来提高输出的可靠性。
微调解决，在微调阶段中加入大量高质量、事实准确的案例，让模型学会在不确定时保持谨慎。

我对幻觉的理解： 目前，模型的幻觉可以在产品层面被控制到可接受的范围。不同领域对幻觉的要求也不同：

开放领域：如知识问答，最好设计拒答逻辑和检索增强机制。一个聪明的测试方法是，让两个或多个模型交叉验证，以获取更准确的信息。
创作领域：暂时没想到坏处，升高温度似乎更有利于发散思维。
专业领域：比较常见的场景是微调 + 工具验证。短期内，我更看好在专业领域中发展人机交互的“超人”协作模式。

#格物/AI

AI 应用的普适性：以 Deep Research 为例

2025 年 03 月 02 日 - 22:44:16

AI 应用场景在 2025 年似乎又被激活了，大批项目引发了新一轮的思考。

Deep Research 的 Agent 形态在特定范围内具有普适性。观察大量研究员的工作，他们需要做大量在线研究或依赖外部上下文的任务，这要求很强的推理能力、信息源分辨能力以及创造力。很明显，检索问题、深入追问、深度推理是一个非常普遍的场景，而此前的 Chat 模式处理起来很累，需要用户频繁地搜索和追问。本质上，这种 Agent 形态解决了人们花费大量时间搜索和整理信息的过程，是一种通用的能力。

我们总认为自己写的代码比模型更聪明，但随着领域发展，模型往往能找到比人类更好的解决方案。我们应尽可能避免将某些东西固定下来，而是尝试让模型自己去学习。

数据是企业生存的红线，Deep Research 也向我们证明了这一点。

2025 年是 Agent 的一年，我们在反思 Agent 会如何发展，以及强化学习（RL）在其中将扮演什么样的角色。

#格物/产品思考

RFT 核心思想：筛选多样化推理路径

2025 年 03 月 03 日 - 16:10:15

RFT（Reinforcement Fine-Tuning）的定义：在 SFT（Supervised Fine-Tuning）的基础上，通过强化学习的方法进一步优化模型，通常利用奖励信号（例如人类反馈生成的奖励）来引导模型生成更符合用户期望和实际需求的输出。

其核心在于，在预训练模型输出大量样本后，通过某种筛选机制（人工或某个系统）选出高质量的样本。这个过程可以显著提高模型的性能。

RFT 在生成路径中筛选出能够正确推导出问题答案的推理路径，这些路径包括了不同的计算过程和表达方式。

引入多样化的推理路径，实际上也提高了模型在处理未见过问题上的泛化能力。

#格物/AI模型训练

观点易得，经验宝贵

2025 年 03 月 03 日 - 16:22:47

信息时代，网上的信息和观点太多了。给我爸打电话，他又灌输给我一个观点，说是我哥给他儿子辅导作业时，孩子有题不会做，我哥就说：“不会做的就不做，选自己会做的做就行。”我爸觉得这句话很有道理。

我说，这个世界上的观点太多，人人都有。但观点往往来源于个人的人生经验，经验才是最原始、最宝贵的。越是一手的经验，越能触动别人，成为引发思考的感性原料。成长是自己的路，观点更像是人早期的价值观和行为指南，而亲身经历才是我们不断修正和完善自我认知的重要过程。

父母的经验有其时代局限性，他们的观点更无法直接套用。我从中学习到的是，每个人都必须在不断经历和实践中，才能形成自己独到的人生见解，也才能更懂得尊重和理解别人的生活方式。

所以，不要害怕我去成长，也不必担心孩子的成长会偏离你们的经验。

#观我/个人成长

推理大模型未来应用的七大场景

2025 年 03 月 03 日 - 18:11:46

结合人类的快思考与慢思考，以及强化学习和大模型的特性，推理模型的未来场景可能包括：

处理模糊或不完整的信息：简而言之，就是根据不完整的 prompt 和意图，模型能慢慢推理出用户的真实需求。
从海量信息中找关键信息：因为泛化能力强，这正是强化学习擅长的领域。无监督学习打好地基，监督微调负责记住细节，而强化学习则帮助模型适应不同环境。
从海量数据中找出联系和微妙之处。
进行多步骤的推理策划：模型非常擅长充当策划者，而让普通模型去做执行者，这在应用中有很多场景。
视觉推理：不仅是文本，图片也能分析，甚至能理解模糊的图像。
审查、改进和调试代码：对于执行速度要求不高的代码，我认为可以利用模型的推理能力来提升代码质量。
充当创意伙伴：在需要复杂策划和推理的创意工作中，模型可以提供帮助。

#格物/AI应用场景

关于科技与商业未来的几点预测

2025 年 03 月 04 日 - 10:57:32

消费级领域可能出现赢家通吃的局面，但企业端由于更丰富的定制化需求，往往不会出现单一产品或平台主导整个领域的情况。
商业模式的转变可能比技术趋势的改变更有预测价值。
有些市场能容纳很多赢家，比如云计算，因为这个市场足够大。
未来会出现 Agent 管理器，它将超越简单的聊天界面，成为一个更智能的系统来管理所有 Agent 及其对话。
未来的三大场景：AI、量子计算、混合场景（临场感，或称元宇宙）。
影响超人智能发展的将是法律约束，我们需要建立真正的信任机制。
Agent OS 必须保证在沙盒中运行的权限安全，不能超越某个权限范围，这是一个硬性要求。
认知劳动不是一成不变的。就像过去的工业革命一样，一些岗位消失后，新的职业体系会重构，认知劳动会向更高层次发展。所以从宏观上看，AI 会重新定义认知劳动的边界，而不是让所有认知劳动完全消失，人机协同的时代正加速来临。
从 Jasper 到 ChatGPT，再到 Monica 和 Console，未来的系统将不断融合工具调用、云端执行与自然语言交互。

#格物/科技趋势

Agent OS 的现在与未来架构畅想

2025 年 03 月 05 日 - 11:08:46当前实践的方案：

Deep Research 采用了一种结构树的方式，将特定场景的操作结构化，通过 Agent 化的方式调用模型和 API，然后在循环中进行搜索、读取和推理。
Claude 的 Computer Use 功能，可以读取屏幕截图、移动光标、点击按钮和输入文本，从而自动完成填写表格、查找信息等任务。一个重要的应用场景是操作浏览器，AI 可以捕捉屏幕进行分析，并使用各种标准工具和软件。

我自己的分析理解： 考虑到未来的软件形态，我更倾向于以下的逻辑关系：

每一个 App 中都有一个或多个 Agent，App 只是作为交互的窗口。
一个 Agent OS 可以管理多个 Agent。这种形态还没确定，我设想了两种可能：一种是与操作系统保持一致，一个操作系统下维护一个 Agent OS，负责调度所有 App；另一种是建立一个统一的规范化调度平台。
App 通过调度所有 Agent 来完成任务，甚至可能通过其他 App 中的 Agent 发送请求。当然，也可能是 Agent OS 去调度不同 App 中的 Agent 来完成任务。
Agent 更像一个可以单独发布的服务，只是拥有智能。这部分需要规范和模板。
Agent 的分层逻辑：应用层、内核层、硬件层。

#格物/AI

对通用 AI Agent Manus 的深度思考

2025 年 03 月 06 日 - 15:52:04

朋友圈最近有很多关于 Manus 的讨论，这引发了我的一些思考。Agent 领域似乎迎来了巨大突破，它和传统的 Chat 模式有什么区别？

Chat 模式：输入 -> 消息
Agent 模式：输入 -> 行动

AI 现在能真的帮你行动并得到结果了，而不仅仅是给出一个答案。

Manus 团队的突出点在于其极强的工程能力，并且是通用 Agent 领域第一个吃螃蟹的人，效果确实很好，相较于 OpenAI Operator 也更平民化。但在创新上，其实并没有很高的壁垒，这种形态本质上是 Computer Use + 虚拟机 + Artifacts + 内置一批 Agent 的综合产物，可以说 Claude 的 Computer Use 赌对了方向。

说 Manus 是全球第一款通用 AI Agent 有点捧杀，毕竟之前还有 AutoGPT、BabyAGI 这些框架，另外 OpenAI 的 Operator 和 Deep Research 也属于通用类型。类似于 Manus 这样的通用 Agent 并没有太大的护城河，可以通过强大的工程能力追赶，比如最近的 OpenHands 项目。通用 Agent 的未来要么是 LLM 厂商将其能力模型内化，要么是通过开源项目堆起生态优势。

相较于操作电脑，操作浏览器是个更收敛的场景，不容易造成死循环。浏览器有大量开源代码和成熟的端到端测试工具系统，输入和输出明确，很容易设计奖励系统。

市场火热的原因分析：

真正落地：它确实能解决实际问题。
打通最后一公里：传统大模型虽然在对话和内容上表现优秀，但缺少行动能力（Operator），而 OpenAI Operator 又喜欢藏着掖着。
舆论红利：市场的稀缺性，加上国内对“国运”的期待（类似之前小红书、DS 等产品的爆火），使得这款产品在国内市场引起巨大反响。但奇怪的是，Manus 是全英文的，完全面向海外用户，只能说国内的舆论效应很强。
炒作嫌疑：自媒体的动作很奇怪，大批自媒体抢在科技从业者之前做测评，感觉像是厂家公关。Agent 的能力在很大程度上还是依赖于基础模型能力的提升。

#格物/产品分析

人生经验：做真正热爱之事

2025 年 03 月 08 日 - 13:26:58

我的人生经验：人一定要做自己真正热爱的事情。

#一闪

Manus 架构与 Claude ComputerUse 的相似性

2025 年 03 月 08 日 - 13:42:00

Manus 的核心架构与 Anthropic 的“ComputerUse”能力高度相似，都依赖于多代理虚拟机环境来完成任务。

#格物/AI

MCP 协议：解决 Agent 互操作性的标准

2025 年 03 月 08 日 - 19:10:51

为什么需要 MCP（Machine-to-Machine Communication Protocol）？主要有三个原因：1. 解决数据孤岛问题；2. 解决安全性问题；3. 建立统一的标准。

其架构是客户端-服务端模式：MCP Client 对应大模型；MCP Server 暴露外部数据和接口。

功能模块包括三种，每个 MCP Server 都可以根据实际需求暴露全部或部分模块：Tools、Prompt 和 Resources。

通讯机制选择的是 JSON-RPC 2.0，Anthropic 及社区已经提供了基于 Python、TypeScript、Golang 等语言的 MCP Server 实现。

#格物/AI

关于灵魂伴侣与“向下兼容”的思考

2025 年 03 月 09 日 - 22:44:52

有个观点说，爱情中的“灵魂伴侣”大多是有一方在向下兼容。一方在性格上可能更宽容，更能包容另一方。

我对灵魂伴侣最本质的理解是一种在精神、情感和价值观上高度契合的深层关系。爱情的本质是两个人深度交流、互相激励、共同成长。

在我的理解中，爱情是两条独立平行线之间的交互。这两条“平行线”通过交流、理解和协作产生互动，从而形成一种有意义的联系。

相比之下，“向下兼容”这个词好像并不准确。不存在绝对的向下兼容，只是站在自己的视角，可能会觉得对方带来的感受和包容度非常高。实际上，对方在某种程度上可能也有同样的感受，只是我们无法证明对方意识的存在。如果单方面的兼容不被理解，这样的交互会很困难。

其实从小到大，父母、老师不也都是这样吗？一直在包容我们罢了。交互的过程很重要，成长的过程也很重要。

大多数关系是浅层次的，少数关系可能带来共鸣，极少数可能是灵魂伴侣。理解并接受这种分布，不对每段关系都抱有过高期待。

无论是一两个阶段性的共鸣，还是灵魂伴侣带来的深刻连接，都值得用心体验，同时坦然面对它的变化。

#观我/情感认知

当局者迷，旁观者清

2025 年 03 月 10 日 - 00:10:15

对你来说是你的经历，对我来说是我的人生。

很多事也许真是当局者迷，旁观者清。身在局中的人觉得好复杂、好纠结，但其实跳到局外，用最简单普世的道理就可以判断。

所以，局中人往往不应轻易否定旁观者的审视和视角。

#观我/处世之道

以代际的眼光看待中国的发展

2025 年 03 月 10 日 - 00:24:47

中国大地上的事情是无穷无尽的，不要在乎一城一池的得失，要执着。

一个国家是由具体的人构成的，它由这些人创造并决定。只有一个国家能够拥有那些寻求真理、独立思考、记录真实、不计利害为这片土地付出、捍卫自己宪法权利、知道世界不完美但仍不言放弃的人，我们才能说，我们为祖国骄傲。只有当一个国家真正拥有这样的头脑和灵魂，我们才能有信心让明天更好。

任何机制和时代都需要寻找其因果。我们不能抛开改革开放的视角。改革开放的加速度其实在 2008 年以后开始呈现相对平稳、斜率下降的趋势，经济周期的转折点已经出现。我们需要意识到经济是有周期的，而不是无限增长的。

这一代领导人是特殊时期成长起来的，人和制度都是那个时代的产物。我们或许能接受暂时的倒退，并相信下一代领导人的才华。

#知世/社会观察

酒精如何让我们吐露真言

2025 年 03 月 10 日 - 11:18:56

酒精会对大脑功能产生抑制作用，尤其是负责判断、决策和自控能力的前额叶皮层。当这一部分功能受抑制时，人的理性判断和自我控制能力会下降，从而可能无意识地说出平时压抑或隐藏的想法和情绪。

#格物/科普

高效使用 AI 编程工具 Cursor 的技巧

2025 年 03 月 10 日 - 12:07:24

从模板开始：通过从 GitHub 或其他来源克隆模板来启动项目，以提供坚实的基础。可以在 Cursor 内部选择“从 Repo 开始”的选项，也可以用 https://bolt.new/ 创建基础的 demo，很好用。
结合 Trae 使用：在 Chat 模式下，Trae 的成本优势明显，且对多模态（尤其是图片）的支持更好，通过图片来修改前端页面效果很好。对于复杂项目的 Agent 逻辑，Cursor 处理得更好。
使用智能体模式：使用 Cursor 的 Agent 模式（而非普通模式）来通过自然语言命令创建、编辑和管理文件。
善于结合 Perplexity：可以利用 Perplexity 进行搜索，提供 API 的代码和示例。
在 Composer 中创建新对话：保持对话简短，专注单一任务。
不断迭代和改进。
结合 GitHub Actions 做自动化测试：用 Cursor 编写测试超级好用，投资回报率超高。
语音转文本工具：Whispr Flow 也很好用。
将错误交给 Agent 处理：这是一个很明智的选择。
经常提交并规范追踪记录：对 Cursor 来说，这是一个很好的习惯。
持续部署项目：使用 Vercel。
记录常用的有效 Prompt：收集并整理自己的 Prompt 库。

#格物/工具使用

两款 AI 视频剪辑工具：Opus Clip 与 CapCut

2025 年 03 月 10 日 - 14:48:21

主要用了两个 AI 剪辑工具：

Opus Clip: https://clip.opus.pro/
字节的 CapCut: https://www.capcut.com/

#格物/工具

AI 应用快速迭代的技术栈与部署逻辑

2025 年 03 月 11 日 - 01:37:34一套用于快速迭代的技术栈：

用 Cloudflare 提供一整套网络服务。
适当准备一些云服务器备用。
数据库也尽可能选择云数据库。
GitOps 是通用能力，可以复用并指数级提高效率。
Milvus、Pinecone 等向量数据库在 AI 应用中不可或缺。
ELK Stack、Prometheus 或 Grafana 对系统运行状态的监控也很重要，这是一套方法论。
AutoGPT / AgentGPT 在自动生成任务链路、验证 MVP 方面很有帮助。
LlamaIndex 是非常好的后端数据管理工具。

#格物/软件工程

同路殊途：在行走中遇见各自的风景

2025 年 03 月 11 日 - 13:29:35

徒步时，伙伴喜欢低头看路，而我喜欢抬头看风景。对他而言，他专注脚下的路，偶尔抬头看一眼风景，感觉很神奇，仿佛风景是瞬移过来的。对我而言，眼中的美景一直在连续变化，让我每时每刻都处于心流状态，感觉和世界融为一体。

有人在享受走路，有人在享受风景。我们在走同样的路，却遇见了各自的风景。

#观我/人生哲学

AI 时代如何快速学习一个开源项目

2025 年 03 月 13 日 - 10:13:11

了解项目的背景、目标以及其作用。
阅读文档和入门指南。
理解项目结构和代码架构。
选择核心模块和关键代码进行深入研究。
利用并分析单元测试来理解功能实现。

#格物/学习方法

洒红节的感慨：关于无常、友谊与自我认知

2025 年 03 月 14 日 - 10:55:51

从早到晚，每个人的脸上都涂满了五颜六色的粉末，大家都很快乐。我有些感慨尼泊尔人的幸福，那种知足常乐、内心世界的富足。

白天的开心过后，现在有些惆怅。晚上恰好在路口遇到了明明姐、小熊和 Vanessa。

有些朋友大概率不会再相遇，有些爱情大概率不会有结果。那么我们就不去做了吗？

明天小熊和 Vanessa 就要离开尼泊尔了。我们在博卡拉相处了很久，一起上课、约饭。在加德满都时还没意识到朋友即将离开，这次偶遇，突然感慨或许这就是最后一面了。

明明姐说了一句：“又是最后一个离开，又是一个人走。”听起来有些落寞。走在路上，我忍不住哭了，但能感受到明明姐的理解。之前我们聊过，她问我朋友都离开了自己是什么感受，我说，以我对自己的了解，伤感是必然的，留下来的那个人往往更伤痛一些。但更重要的是对这份伤感的反思，对无常的反思，对生命意义和友谊的思考。我们在这条街道上拍了一张合影，或许是最后一张完整的合影了。

对无常的理解，对“一期一会”的理解。生命中的每一次相遇与离别，都是无常的缩影。无常并非冷酷的审判，它只是生命的本真，提醒我们接受变化，并在变化中寻找意义。无常并不意味着消极，它让我们更加懂得珍惜当下，把握每一个与亲朋好友相处的瞬间。正如樱花在盛开后迅速凋落，它的美丽恰恰源于短暂。我们的相遇与离别也是如此，虽稍纵即逝，却因其独特性而熠熠生辉。

我们曾真诚地对待彼此，珍惜每一次相聚的时光，即便知道分别在即。这种真诚并非为了挽留，而是对生命的尊重、对友谊的致敬。或许，这辈子我们再难相见，但那份情感不会因距离而消散，反而在离别中愈发珍贵。

前提是我们如何从中悟出对生命的感悟，以及自己的处世之道。

认识自我很难，面对自我更难。当我们对自己有足够的了解，并以真诚的态度面对感情时，就能清晰地看到它带给我们的成长和价值。无论结果如何，重要的是我们在这段过程中是否能提升自我，是否能与对方在尊重、理解与平等中找到共鸣。

#观我/生命感悟

AI 时代下前端开发的新趋势

2025 年 03 月 14 日 - 16:25:14

不可否认，AI 对前端一部分带来了机遇，一部分带来了挑战。

AI 时代上手前端更简单了。Cursor 等产品，甚至可以帮你从 1 到 N，再到 100。就算是不懂前端的人也能快速搭建出项目原型。

任何时代，与用户的交互都是不可避免的。从客观视角来看，技术的门槛降低了，但对于会前端的同学来说，效率更高了。利用好 GitHub 上的开源模板，比如 Vercel 的 AI Chatbot，许多网站和网页都可以快速缝缝补补地做出来。

例如，极简的 AI 搜索工具 https://github.com/zaidmukaddam/scira，还有一些 AI 集成服务，如 https://tavily.com/。

其实在项目前期，很多工具和方法能用服务就用服务，这能帮助我们更快地验证想法。

#格物/前端开发

关于 AI Agent 开发的深度思考

2025 年 03 月 14 日 - 19:05:56

Agent 是今年最火爆的词，今年也可能会是 Agent 的元年。

关于大模型如何使用 Tools，现在有 Computer/Browser Use 和 Agent 协议两种主流方案。

后者以 Anthropic 去年发布的 MCP（Machine-to-Machine Communication Protocol）为主，当然也有 OpenAI 的 Function Call，但它更侧重于提供一个简单易用的接口，而非标准化。MCP 的标准化接口可以更好地支持多样化的工具和场景。比如计算 1+1=2，用 Function Call 很简单，但要自动化一个完整的数据分析流程，就不行了。

前者在缺乏标准化接口的场景下，可以通过模拟操作快速实现功能验证，比如调用各种网页操作或某些应用程序。模拟用户操作是在 GUI 层，而 MCP 是在 API 层，一个效率低，一个效率高。MCP 更像是长期的标准化方案。

如果你面对的是一个你不能开发或修改的 Agent，那么通过 MCP 协议来接入外部服务就更有优势，因为它定义了一个开放和标准的接口。普通人都能一键安装 MCP 来实现业务能力。

另外，Agent 其实也一定有层级分类，现在这种感触尤其深刻，各种奇特的 Agent 都在出现。

Workflow Agent：由 Prompt 和 API 调用组成的链条，具有一定自主性，但约束太多。
专业 Agent：能自主决定在系统中调用哪个工具，比如 AutoGPT 通过 CoT 技术分解复杂问题，动态选择最优解决路径。
通用 Agent (Agent 的 AGI)：目前仍处于理论概念阶段。

Agent 的能力取决于：Agent = LLM + Memory + Planning Skills + Tool Use

比如 Claude 的 Computer Use 其实也是 Tool Use 的一种。

规划能力（Planning Skills）指将大任务划分为小任务，并进行反思和提炼——基于已有动作进行自我反思，从错误中学习并优化接下来的动作。此外，有论文提出了更细致的分类法：任务分解、多计划选择、外部模块辅助规划、反思与细化、记忆增强规划。这些方法并非孤立，而是相互交织，共同提升 AI Agent 的规划能力。

#格物/AI

在不确定性中追求意义与成长

2025 年 03 月 15 日 - 11:44:05

人生这道选择题，无论怎么选都会有遗憾。人们总认为没走的那条路才开满鲜花。

很多事情，看得太透彻了也没啥意思。别抗拒，别挽留。

面对如此丰富多彩的世界，尤其是像爱情这样复杂且多维的情感时，我们常常只能捕捉到其中的一小部分。这种张力正是人类不断探索、学习和成长的动力。

性、拥抱、约会都是爱的重要表现形式，但它们只是爱的外在体现。爱的本质更在于人与人之间那种深层次的情感纽带、理解与支持，以及共同成长的过程。

吃醋的本质在于内心的不安全感和对自我价值的不确定性。

面对喜欢的人吃醋，我学到了一个很好的方法：理解并包容对方很重要，这有助于化解误会，消除不必要的猜疑。

遇到喜欢的人会吃醋是正常反应。以前我也有过很多次这样的现象，但却没有进行过本质的反思。现在我认为，去理解和管理这种情绪，去思考自己为什么会吃醋，思考对方这么做的原因，是一个很好的成长养分，可以帮助自己和对方共同进步。当然，过度的吃醋可能是强烈的占有欲作祟。

#观我/个人成长

多模态 Chat 的设计思考

2025 年 03 月 16 日 - 11:23:19
多模态交互目前涉及文本、图像、声音、视频、网页、数据文件和传感器等多种形式。这些形式既可以是发送的格式，也可以是接收的格式。

Claude Artifacts 的设计逻辑有所不同，它能生成多种类型的内容，为使用交互式元素提供了开创性的机会，从原型到功能齐全的 Web 服务。它可以在一定程度上自动选择输出形式，例如：

交互式文档
数据和流程可视化
SVG 图形，包括商标
网站结构
序列图等复杂可视化文档

预计 Artifacts 未来支持的类型会越来越多。类似的产品，如 Google NotebookLM，也采用了相似的形态，允许用户操控代码和进行交互设计。

#格物/产品设计

尼泊尔华裔老板引发的跨文化反思

2025 年 03 月 16 日 - 11:51:52
经历复原

约好和朋友出去玩，上午在她住的酒店公共区等她。酒店老板是一位马来西亚华裔女性。我作为数字游民，就拿出电脑办公，为避免麻烦，连接的是自己的热点，用完的纸巾也自己带走。

朋友上楼后，老板过来问我是否住在这里，得知我住在隔壁后，她接连追问我的酒店是否有Wi-Fi和公共空间，最后说这里只给客人使用，不欢迎我。我当时提出可以付小费，并保证离开前会打扫干净，但她依然坚持让我回自己酒店。

思考与反思

老板的行为动机，可能是担心没有利益关联的人占用资源，把我当成了“蹭”座位的投机者。当我解释是在等住在这里的朋友时，她似乎有些愧疚。

这个小冲突让我反思了规则与人情在不同文化中的平衡。国内的文化体系受儒家“中庸”思想影响，往往在规则与人情间寻求平衡。而在尼泊尔，当地服务业通常以友好和热情著称，规则的强调往往通过显著、透明的标识来实现。

这次经历让我意识到，全球华人文化在传播和适应新环境的过程中，会与当地文化产生碰撞，形成独特的行为模式。人性中基于过往经验形成的直觉，往往是过时或片面的。我们需要不断地更新自己对一个文化系统的认知模型，用交流和经验作为养分，用逻辑和推理来构建理性的行为指导。

人性在规则（秩序）和人情（情感）间摇摆，不同文化背景的个体倾向也不同。理解这一点，有助于我们更好地预测和应对他人的反应，并在面对不信任时，尝试超越情绪，探寻行为背后的文化或个人原因，从而实现更有效的沟通。

#知世/文化冲突

Claude Artifacts：AI 生成内容的新范式

2025 年 03 月 16 日 - 13:13:45
Claude Artifacts 是 Anthropic 推出的一项功能，它允许 Claude 模型在对话中生成和展示丰富的、交互式的内容块，而不仅仅是文本。这些内容块（Artifacts）会显示在一个专门的侧边栏窗口中，与聊天界面并存。

用户可以直接与这些 Artifacts 互动，例如查看代码、编辑网页设计、或者运行一个小的应用程序。这极大地扩展了 AI 助手的应用场景，从一个“问答者”变成了一个“创造者”和“协作者”。

#格物/AI

再访烧尸庙：对“圆台”的遐想

2025 年 03 月 16 日 - 15:13:45
远远望去，那些圆形的石台散落在河岸两侧，有的在西岸的树丛里，有的靠近东岸的火葬区。我一开始以为是某种祭坛，后来才知道，这些可能是苦行僧（Sadhu）修行的地方，或是信徒举行特殊仪式的小平台。

它们不像火葬台那么显眼，却总能吸引我的目光——尤其是当有人趴在上面，或者像跳舞一样动来动去的时候。

#知世/旅居

关于建议的艺术：放手与帮忙的平衡

2025 年 03 月 18 日 - 01:59:29
给不给建议，没有标准答案，像在“放手”和“帮忙”之间找平衡，主要取决于关系、情景以及对方是否真的需要。

主动提建议前的思考：

你多说一句，就可能影响别人的决定，等于介入了他的生活轨迹。万一建议不好，你可能还得承担些责任。但实际上，我们只负责播种和浇水，无法控制果实，何必过分纠结。

人性与建议：为何人们讨厌建议？

大多数人在听到建议时会本能地保护自尊心。建议往往可能夹带着建议者的优越感、控制欲或期待被认可的私心。经验比观点更深刻，是宝贵的一手资料。我们在分享经历和观点时，其实也是在反思和了解自己。

另外，控制欲也是一个因素，尤其在国内的亲子关系中。青春期的孩子尤其讨厌别人插手自己的事。信任关系也很关键，如果关系不够，对方反而会怀疑你的动机。

如何正确地给出建议：

先倾听，后开口：搞清楚对方在想什么，他的处境和视野盲区在哪。
给选项，不下令：提供选项或补充信息，而不是命令。每个人都有权自己做决定，哪怕你觉得他可能会栽跟头。
看时机，避开情绪：避免在对方情绪化或不够理性的时刻给建议。

实践指南：

多讲故事，少讲道理：经历往往比观点更能引发思考。
多问问题，引导思考：
- 你真正想要什么？
- 试过哪些方法？
- 最怕发生什么？

建议的价值，不在于你说了什么，而在于对方听进去了什么。

#观我/人际关系

人性的复杂与宽恕的力量

2025 年 03 月 18 日 - 15:04:59
在西方个人主义观念中，人们在犯错后很少会自我责备。相比之下，受儒家思想影响的东方传统文化更重视谦逊和反省。然而，西方文化强调自我价值和激励，即使失败也更容易通过积极的自我暗示来保护自尊。

人们害怕责备，本质上是害怕不被理解。如果用理解代替指责，设身处地去想对方为何如此，同情、善意和宽容便会油然而生。所以，不要批评、不要指责、不要抱怨。

与人打交道时，请牢记：人并非纯粹的理性生物。他们被情感驱使，被偏见支配，傲慢与虚荣是其动力之源。

愤怒很简单，而宽恕、理解、原谅则很难，这些都是人性中宝贵的财富。

了解一切，就能宽恕一切。

#观我/人性

理解个性

2025 年 03 月 19 日 - 13:56:03
“个性”是一个非常广泛的词，它可能覆盖了“人格魅力”。“人格”是指个体思维、情感和行为的特征模式，以及这些模式之下隐藏或显露的心理机制。相比之下，“性格”是一个更大众化的词汇。

#观我/心理学

AI 模型服务商的两种模式：集大成者与专精者

2025 年 03 月 19 日 - 15:15:11
目前市场上的 AI 模型服务商大致可以分为两类：

一类是像 Fireworks.ai 这样，面向终端应用的“集大成者”。它强调让用户直观地看到推理过程、参数设置及各种选项，操作更灵活。它将各类模型和服务汇聚到统一界面，方便业务层用户直接调用。

另一类则是像硅基流动或 OpenRouter 这样，深耕技术细节、满足高端定制需求的“专精者”。

#格物/AI

Cursor 的 MCP 协议：一个可插拔的插件系统

2025 年 03 月 20 日 - 00:48:17
Cursor 的模型上下文协议 (MCP) 感觉更像是一个插件系统协议，它标准化了应用程序向大语言模型 (LLM) 提供上下文和工具的方式。

有趣的是，Cursor 的 MCP 似乎比 Claude 的更有趣，价值也可能更大。我们可以将 AI 平台的 MCP 想象成一个可插拔的客户端系统，允许用户通过图形界面（GUI）或命令行（CLI）来安装、配置和管理各种 MCP 服务器。

它支持多种传输协议（如 stdio 和 SSE），并能链接各种数据源，这让它变得非常有意思。

#格物/AI

Context 的可控性与人机交互

2025 年 03 月 20 日 - 17:42:32
Context（上下文）是应用可以自己控制和调整的，这一点对于人机交互至关重要。

例如，Cursor 就是通过 Context 来控制代码文档的，可以指定网站、文件、外部网页地址以及 Git 上下文。值得注意的是，这些规则是可配置的，甚至可以设置 MCP（模型上下文协议）来进行更精细的控制。

#格物/AI

狗的表达方式：环境塑造的沟通密码

2025 年 03 月 21 日 - 22:29:55
狗之间有一套我们也能轻易辨别的交流方法。例如，直视狗的眼睛代表敌意；它们通过嗅闻对方臀部来识别身份、性别和状态；尾巴的姿态直接反映了它们的心情。

有趣的是，狗的表达方式也是环境的产物。尼泊尔的流浪狗与人共存已久，环境相对宽松，生存压力小，因此显得更松弛。而国内的家犬被圈养，领地意识强，对陌生人更具警惕性和攻击性。狗的生存依赖主人，环境不再是共生的，而是分隔的。

存在总是与世界纠缠。顺应世界的方式不同，一种是被接纳的自由，一种是被限定的守护。

#知世/观察

相见不如不见

2025 年 03 月 21 日 - 23:10:21
如果见面只会带来尴尬、负担甚至痛苦，那刻意维持关系的意义是什么？是为了满足自己的情感需求，还是为了迎合别人的期待？

这背后藏着一个更深的问题：关系的意义，到底是主动追求来的，还是自然流淌出来的。

#观我/人际关系

借鉴与抄袭：创意的炼金术

2025 年 03 月 21 日 - 23:11:10
好的产品设计在大众审美中最终会趋于相似。

抄袭是什么？ 是指毫无思考地复制他人创意，只停留在模仿层面。

借鉴又是什么？ 是在长时间思考后，对某种美好形态产生独特构想；在苦思冥想、反复尝试后，突然灵光一现——从某个触动心弦的细节中恍然大悟，这正是自己所追寻的灵感！

借鉴的妙处在于，它不是掠夺，而是通过他人的火花点燃自己的火焰。就像失恋后听到一首伤感歌曲，某段歌词触动了内心深处，那种情感正是自己一直在寻找的表达。

创意往往是集体智慧的结晶，关键在于你如何将这些灵感“消化”成自己的东西。

#观我/创造力

理性与感性的极致相通

2025 年 03 月 22 日 - 12:18:46
绝对的二元对立并非真理，而是人类语言和思维的产物。对与错，往往取决于观察者的立场。道家思想也说，祸福相依，好坏是动态平衡的一部分。

认知心理学的“思考快与慢”双系统理论，将思维分为快速直觉的感性系统和缓慢分析的理性系统。感性效率更高，消耗能量更少，生活中的许多行为，如脱口而出的话语，其实都是直觉性的。

感性的背后也有一套机制，其选择、风格和表达都蕴含着深层的“感性逻辑”。当感性达到极致，它会突破混乱与自我，变成一种深度的通透和认知——这便是另一种形式的“理性”。

道家追求超越所有概念的平和，回归本源的整体性思维，其核心在于“放下”——放下执念与自我，最终与“道”同在。

#观我/哲学

形而上学：研究“看不见的本质”

2025 年 03 月 22 日 - 12:34:40
形而上者谓之道，形而下者谓之器。

在西方哲学中，形而上学是研究存在本质、宇宙根源、时间、空间、因果、灵魂等抽象问题的分支，是人类对根本问题的终极追问。它关心的不是“事物是什么样”，而是“为什么是这样，其本质是什么”。

它与玄学不同，更倾向于体系化、抽象化的哲学思考。玄学则带有更多的直觉性、神秘性或文化传统特点。对大多数人来说，玄学可能在日常生活中“帮助感”更强，因为它更贴近情感和直觉。但玄学依赖直觉力、悟性和灵性，更像是一种“道”的修炼，往往显得神秘且需要缘分。

#格物/哲学

家庭教育的核心：品德、价值观与以身作则

2025 年 03 月 22 日 - 16:19:31
朋友认为欧美的孩子更自由，能探索世界、追求爱好。但西方的“快乐教育”真的好吗？他们从小教育孩子独立思考、为自己人生负责，而我们受儒家思想影响，更强调集体感、家庭责任和稳定。

自由应带有底线，独立也需存有归属感。父母需要构建一个体系来把握孩子成长的大方向和安全底线。

最好的教育，应该是基于对世界的理解，并符合未来发展的教育体系。接触自然并非最核心，培养孩子的品德、人生观和价值观才最重要。这需要让孩子理解世界的复杂性，同时父母要以身作则——经验比观点更重要，身教远大于言传。

当然，每个人都有权选择自己的教育方式，没有绝对的对错。

#观我/教育

WebRTC 的应用场景思考

2025 年 03 月 23 日 - 20:38:00
WebRTC 提供了端到端的策略，在物联网领域有很大的适用场景。

需要留心一下 musetalk 和 musev 的应用。

目前支持 RTC 的一些策略：

OpenAI：支持 Realtime API。
Hugging Face：推出了 Fast RTC，一个开源的 WebRTC 库，同样支持 WebSocket、STT 和 TTS。

#格物/AI

AI 开发中最惨痛的教训

2025 年 03 月 25 日 - 16:45:12
多 commit，并且精确地描述每一次 commit。

#一闪

事件总线：构建松耦合的系统

2025 年 03 月 29 日 - 10:08:15
事件总线和消息事件流水线设计的核心在于实现模块间的松耦合。通过事件传递而非直接调用，每个模块只需专注自身业务逻辑，无需了解其他模块的实现细节。

事件总线就像一个中介，让各个模块可以独立开发、测试和部署。新的模块和功能只需注册到事件流水线中即可。

#格物/软件工程

父辈的爱：兜底而非设限

2025 年 03 月 29 日 - 10:09:24
父辈只是想用自己的经验，为我们谋得一份幸福。

但他们的经验，可能并不适用于未来的时代。最终，这取决于孩子的选择。

父辈所做的，是为我们兜底，而不是给我们设限。

#一闪

“追”的背后：对意义的探寻

2025 年 03 月 29 日 - 10:20:05
“追”谁这件事，表面看是个人喜好，深挖后其实反映了一个人内心对“意义”的追求和对“存在”的理解。

追星：多为情感驱动，明星身上承载了理想化的形象——美、活力、成功，或是逃避现实的梦幻泡影。
追科学家：更偏向理性，崇拜的是人类的智力和探索精神，在乎的是“人类整体进步”这类宏大叙事。
追作家：往往被故事、情感和语言的深度所吸引，他们在寻找共鸣，或试图通过他人的笔触来理解自己，更具内省色彩。

人性的需求本质上没有高低之分，每个人所追寻的，不过是内心需求的投影。关键在于，这个过程是否真诚，是否有所得。

#观我/心理机制

尼泊尔政治动荡的思考

2025 年 03 月 30 日 - 09:43:33
尼泊尔动乱最主要的原因在于长期的政治不稳定和治理不力，政府更迭过快以及普遍的腐败，这背后是民众对稳定的深切渴望。

从中国的角度来看，更倾向于支持长期权力集中、继承制度明确的治理方式，因为共和制可能导致频繁的政治更迭和低效。这就像一个天平失去了平衡。

尽管如此，君主制复辟的几率依然较低。政府多次更迭和制度创新虽带来了混乱，但也形成了一套相对稳定的权力架构。恢复君主制不仅需要民意支持，还必须克服宪法和政治现实的重大障碍。目前，尼泊尔的主要政治力量、军队及国际社会都倾向于维护现有体制。

更何况，即使恢复君主制，也未必能从根本上解决现有问题。关键在于能否实现真正的政治稳定和高效治理。

#知世/政治