2025年3月思考笔记
DeepSeek R1 论文的设计与工程启示
2025 年 03 月 01 日 - 13:11:41工程思考 架构上的工程意义优于算法意义,为工程实践提供了许多参考价值。
设计思考
- 强大的模型蒸馏可以得到非常不错的效果。
- 要超越智能的界限,仍需强大的基础模型和更大规模的强化学习。
- 推理大模型倾向于在回答问题前,先将问题分解为更小的步骤。
- 仅靠强化学习,不经监督微调,大模型也能涌现出强大的推理技能。
- 为模型提供一些参考性的思考笔记也很重要。监督微调能在一定程度上解决输出的思考过程可读性差、偶尔中英混杂的问题。
- 最小干预模板能指导模型自由探索不同的解题思路,不限定思考方法,可能会带来很多惊喜。
- 简单直接的奖励方式:准确度奖励(数学问题的回答)+ 格式奖励(易于理解的思维链)。将“思考过程”放在特定标签(如
<think>...</think>
)内,答案放在<answer>...</answer>
内,无需额外训练一个独立的奖励模型,就像固定的高考筛选机制一样,简单有效。 - R1 同时公开了基于 R1 蒸馏的六个小模型,这些小模型也具备了一定的推理能力,在某些场景下甚至超过未经蒸馏直接强化学习的小模型,这为未来的模型应用场景提供了一些思考。知识蒸馏结合强化学习,能让小模型在许多应用场景下产生出乎意料的效果。
#格物/AI模型解析
AI 的多模态与跨领域融合趋势
2025 年 03 月 01 日 - 16:30:25 大模型平台 + 领域微调 + 知识蒸馏,未来的微调趋势可能是领域监督微调结合参数高效微调(如 LoRA)。
从文本领域走向多模态是一种趋势,人机交互愈发受到重视,大批交互工具(如 Cursor)正在解决这个问题。扩展至语音、视频等多模态也是必然趋势,AI 的终极形态是全感官 AI。
跨领域知识整合也很重要,许多复杂的现实问题依赖于不同专业领域知识的融会贯通。
模块化趋势或许会借鉴专家混合(Mixture-of-Experts, MOE)等架构,让不同模块专攻不同任务,从而提升整体效率和表现。这种方式也可以和不同领域的知识链接或结合。
对于小模型而言,蒸馏的效果通常比直接强化学习更好,也更节约成本。蒸馏技术能将大模型的能力有效转移到结构更小、计算效率更高的小模型上,使它们在实际应用中也能达到较高的性能水平。
#格物/AI技术趋势
Web3 核心:智能合约与数字货币周期
2025 年 03 月 01 日 - 23:10:11 区块链衍生出许多技术,但就 Web3 发展而言,核心是智能合约。智能合约存储在区块链上,充当自动化的业务逻辑,一旦满足条件即可执行。Web3 的形态可以理解为社区驱动、自给自足的经济形态。
数字货币的成长周期分析:创建 -> 成长 -> 投机 -> 泡沫 -> 调整。
货币的价格完全由市场决定。新旧货币都满足“需求旺盛 + 供应有限 = 市场增长”的规律。比特币有发行上限,且每四年产量减半,是一种稀缺性递增的资产。
经济学中的“更傻理论”也决定了市场行为:只要能找到愿意出更高价的接盘者,即使资产价格不合理也有人愿意购买,直到市场找不到“更傻的人”时泡沫才会破裂。
#格物/Web3
监督微调与强化学习微调的策略辨析
2025 年 03 月 02 日 - 20:53:02 监督式微调(SFT)的优势:DeepSeek R1 的预训练也用到了 SFT,它在复制输入文本或图像中的特征方面非常强大,特别适合用来改变模型的语气、风格或响应格式。
强化学习微调(RFT)则能让模型在自定义领域中以全新的方式进行推理,并且学习能力极强。
强化学习微调是基于人类的偏好和规则来定义模型,使其输出符合特定的偏好和价值准则。它首次让开发者、研究人员和机器学习工程师能够使用强化学习来创建专家模型,使其在特定领域的任务中表现卓越。在这个过程中,模型会自动调整其学习和思考的方式。
相对而言,强化学习微调更适合推理模型,它实现起来简单,只需要几十个用例就能产生非常好的效果,并且不仅调整模型的输出逻辑,还优化其思考和推理的过程。
相较于 DeepSeek 简单的评分逻辑,这里可以进一步思考使用 AI 评分器。
#格物/AI模型训练
探索 AI Agent 的产品形态
2025 年 03 月 02 日 - 21:43:16 大家都在探索 Agent 的路上,目前简单的 Agent 产品形态似乎主要是 auto-agent。
Agent 和强化学习(RL)的结合,Deep Research 的成功好像验证了这条路的可行性。
参考:
- AutoGPT: https://github.com/Significant-Gravitas/AutoGPT
- Agent 列表: https://github.com/e2b-dev/awesome-ai-agents
#格物/AI
大模型幻觉问题的应对策略与思考
2025 年 03 月 02 日 - 22:14:10目前阶段解决幻觉的方法:
- 知识蒸馏和软标签可以降低幻觉。知识蒸馏让教师模型提供概率分布形式的软标签来微调学生模型。
- 强化学习中的奖励模型可以引导大语言模型诚实回答。
- *RAG(检索增强生成)**是有效手段,业界普遍认为是最有效的方法之一。
- *链式验证(CoVe)**让模型先生成初始回答,再规划若干事实核查问题,逐一回答这些问题,并根据核查结果修正原回答,从而纠正自己的错误。
- Prompt 的自我校验,引导模型自我检查输出。例如,在生成答案后追加指令,如“请检查以上回答中是否有不确定的地方,如有请引用可靠资料”,促使模型二次思考并给出依据或修改答案。
- 工具调用,针对一些固定程序的问题(如计算)以及实时性的问题(如搜索),使用工具能很好地解决。
- 解码策略优化,通过降低温度、采用贪心或束搜索而非随机采样,来提高输出的可靠性。
- 微调解决,在微调阶段中加入大量高质量、事实准确的案例,让模型学会在不确定时保持谨慎。
我对幻觉的理解: 目前,模型的幻觉可以在产品层面被控制到可接受的范围。不同领域对幻觉的要求也不同:
- 开放领域:如知识问答,最好设计拒答逻辑和检索增强机制。一个聪明的测试方法是,让两个或多个模型交叉验证,以获取更准确的信息。
- 创作领域:暂时没想到坏处,升高温度似乎更有利于发散思维。
- 专业领域:比较常见的场景是微调 + 工具验证。短期内,我更看好在专业领域中发展人机交互的“超人”协作模式。
#格物/AI
AI 应用的普适性:以 Deep Research 为例
2025 年 03 月 02 日 - 22:44:16 AI 应用场景在 2025 年似乎又被激活了,大批项目引发了新一轮的思考。
Deep Research 的 Agent 形态在特定范围内具有普适性。观察大量研究员的工作,他们需要做大量在线研究或依赖外部上下文的任务,这要求很强的推理能力、信息源分辨能力以及创造力。很明显,检索问题、深入追问、深度推理是一个非常普遍的场景,而此前的 Chat 模式处理起来很累,需要用户频繁地搜索和追问。本质上,这种 Agent 形态解决了人们花费大量时间搜索和整理信息的过程,是一种通用的能力。
我们总认为自己写的代码比模型更聪明,但随着领域发展,模型往往能找到比人类更好的解决方案。我们应尽可能避免将某些东西固定下来,而是尝试让模型自己去学习。
数据是企业生存的红线,Deep Research 也向我们证明了这一点。
2025 年是 Agent 的一年,我们在反思 Agent 会如何发展,以及强化学习(RL)在其中将扮演什么样的角色。
#格物/产品思考
RFT 核心思想:筛选多样化推理路径
2025 年 03 月 03 日 - 16:10:15 RFT(Reinforcement Fine-Tuning)的定义:在 SFT(Supervised Fine-Tuning)的基础上,通过强化学习的方法进一步优化模型,通常利用奖励信号(例如人类反馈生成的奖励)来引导模型生成更符合用户期望和实际需求的输出。
其核心在于,在预训练模型输出大量样本后,通过某种筛选机制(人工或某个系统)选出高质量的样本。这个过程可以显著提高模型的性能。
RFT 在生成路径中筛选出能够正确推导出问题答案的推理路径,这些路径包括了不同的计算过程和表达方式。
引入多样化的推理路径,实际上也提高了模型在处理未见过问题上的泛化能力。
#格物/AI模型训练
观点易得,经验宝贵
2025 年 03 月 03 日 - 16:22:47 信息时代,网上的信息和观点太多了。给我爸打电话,他又灌输给我一个观点,说是我哥给他儿子辅导作业时,孩子有题不会做,我哥就说:“不会做的就不做,选自己会做的做就行。”我爸觉得这句话很有道理。
我说,这个世界上的观点太多,人人都有。但观点往往来源于个人的人生经验,经验才是最原始、最宝贵的。越是一手的经验,越能触动别人,成为引发思考的感性原料。成长是自己的路,观点更像是人早期的价值观和行为指南,而亲身经历才是我们不断修正和完善自我认知的重要过程。
父母的经验有其时代局限性,他们的观点更无法直接套用。我从中学习到的是,每个人都必须在不断经历和实践中,才能形成自己独到的人生见解,也才能更懂得尊重和理解别人的生活方式。
所以,不要害怕我去成长,也不必担心孩子的成长会偏离你们的经验。
#观我/个人成长
推理大模型未来应用的七大场景
2025 年 03 月 03 日 - 18:11:46 结合人类的快思考与慢思考,以及强化学习和大模型的特性,推理模型的未来场景可能包括:
- 处理模糊或不完整的信息:简而言之,就是根据不完整的 prompt 和意图,模型能慢慢推理出用户的真实需求。
- 从海量信息中找关键信息:因为泛化能力强,这正是强化学习擅长的领域。无监督学习打好地基,监督微调负责记住细节,而强化学习则帮助模型适应不同环境。
- 从海量数据中找出联系和微妙之处。
- 进行多步骤的推理策划:模型非常擅长充当策划者,而让普通模型去做执行者,这在应用中有很多场景。
- 视觉推理:不仅是文本,图片也能分析,甚至能理解模糊的图像。
- 审查、改进和调试代码:对于执行速度要求不高的代码,我认为可以利用模型的推理能力来提升代码质量。
- 充当创意伙伴:在需要复杂策划和推理的创意工作中,模型可以提供帮助。
#格物/AI应用场景
关于科技与商业未来的几点预测
2025 年 03 月 04 日 - 10:57:32
- 消费级领域可能出现赢家通吃的局面,但企业端由于更丰富的定制化需求,往往不会出现单一产品或平台主导整个领域的情况。
- 商业模式的转变可能比技术趋势的改变更有预测价值。
- 有些市场能容纳很多赢家,比如云计算,因为这个市场足够大。
- 未来会出现 Agent 管理器,它将超越简单的聊天界面,成为一个更智能的系统来管理所有 Agent 及其对话。
- 未来的三大场景:AI、量子计算、混合场景(临场感,或称元宇宙)。
- 影响超人智能发展的将是法律约束,我们需要建立真正的信任机制。
- Agent OS 必须保证在沙盒中运行的权限安全,不能超越某个权限范围,这是一个硬性要求。
- 认知劳动不是一成不变的。就像过去的工业革命一样,一些岗位消失后,新的职业体系会重构,认知劳动会向更高层次发展。所以从宏观上看,AI 会重新定义认知劳动的边界,而不是让所有认知劳动完全消失,人机协同的时代正加速来临。
- 从 Jasper 到 ChatGPT,再到 Monica 和 Console,未来的系统将不断融合工具调用、云端执行与自然语言交互。
#格物/科技趋势
Agent OS 的现在与未来架构畅想
2025 年 03 月 05 日 - 11:08:46当前实践的方案:
- Deep Research 采用了一种结构树的方式,将特定场景的操作结构化,通过 Agent 化的方式调用模型和 API,然后在循环中进行搜索、读取和推理。
- Claude 的 Computer Use 功能,可以读取屏幕截图、移动光标、点击按钮和输入文本,从而自动完成填写表格、查找信息等任务。一个重要的应用场景是操作浏览器,AI 可以捕捉屏幕进行分析,并使用各种标准工具和软件。
我自己的分析理解: 考虑到未来的软件形态,我更倾向于以下的逻辑关系:
- 每一个 App 中都有一个或多个 Agent,App 只是作为交互的窗口。
- 一个 Agent OS 可以管理多个 Agent。这种形态还没确定,我设想了两种可能:一种是与操作系统保持一致,一个操作系统下维护一个 Agent OS,负责调度所有 App;另一种是建立一个统一的规范化调度平台。
- App 通过调度所有 Agent 来完成任务,甚至可能通过其他 App 中的 Agent 发送请求。当然,也可能是 Agent OS 去调度不同 App 中的 Agent 来完成任务。
- Agent 更像一个可以单独发布的服务,只是拥有智能。这部分需要规范和模板。
- Agent 的分层逻辑:应用层、内核层、硬件层。
#格物/AI
对通用 AI Agent Manus 的深度思考
2025 年 03 月 06 日 - 15:52:04 朋友圈最近有很多关于 Manus 的讨论,这引发了我的一些思考。Agent 领域似乎迎来了巨大突破,它和传统的 Chat 模式有什么区别?
- Chat 模式:输入 -> 消息
- Agent 模式:输入 -> 行动
AI 现在能真的帮你行动并得到结果了,而不仅仅是给出一个答案。
Manus 团队的突出点在于其极强的工程能力,并且是通用 Agent 领域第一个吃螃蟹的人,效果确实很好,相较于 OpenAI Operator 也更平民化。但在创新上,其实并没有很高的壁垒,这种形态本质上是 Computer Use + 虚拟机 + Artifacts + 内置一批 Agent 的综合产物,可以说 Claude 的 Computer Use 赌对了方向。
说 Manus 是全球第一款通用 AI Agent 有点捧杀,毕竟之前还有 AutoGPT、BabyAGI 这些框架,另外 OpenAI 的 Operator 和 Deep Research 也属于通用类型。类似于 Manus 这样的通用 Agent 并没有太大的护城河,可以通过强大的工程能力追赶,比如最近的 OpenHands 项目。通用 Agent 的未来要么是 LLM 厂商将其能力模型内化,要么是通过开源项目堆起生态优势。
相较于操作电脑,操作浏览器是个更收敛的场景,不容易造成死循环。浏览器有大量开源代码和成熟的端到端测试工具系统,输入和输出明确,很容易设计奖励系统。
市场火热的原因分析:
- 真正落地:它确实能解决实际问题。
- 打通最后一公里:传统大模型虽然在对话和内容上表现优秀,但缺少行动能力(Operator),而 OpenAI Operator 又喜欢藏着掖着。
- 舆论红利:市场的稀缺性,加上国内对“国运”的期待(类似之前小红书、DS 等产品的爆火),使得这款产品在国内市场引起巨大反响。但奇怪的是,Manus 是全英文的,完全面向海外用户,只能说国内的舆论效应很强。
- 炒作嫌疑:自媒体的动作很奇怪,大批自媒体抢在科技从业者之前做测评,感觉像是厂家公关。Agent 的能力在很大程度上还是依赖于基础模型能力的提升。
#格物/产品分析
人生经验:做真正热爱之事
2025 年 03 月 08 日 - 13:26:58 我的人生经验:人一定要做自己真正热爱的事情。
#一闪
Manus 架构与 Claude ComputerUse 的相似性
2025 年 03 月 08 日 - 13:42:00 Manus 的核心架构与 Anthropic 的“ComputerUse”能力高度相似,都依赖于多代理虚拟机环境来完成任务。
#格物/AI
MCP 协议:解决 Agent 互操作性的标准
2025 年 03 月 08 日 - 19:10:51 为什么需要 MCP(Machine-to-Machine Communication Protocol)?主要有三个原因:1. 解决数据孤岛问题;2. 解决安全性问题;3. 建立统一的标准。
其架构是客户端-服务端模式:MCP Client 对应大模型;MCP Server 暴露外部数据和接口。
功能模块包括三种,每个 MCP Server 都可以根据实际需求暴露全部或部分模块:Tools、Prompt 和 Resources。
通讯机制选择的是 JSON-RPC 2.0,Anthropic 及社区已经提供了基于 Python、TypeScript、Golang 等语言的 MCP Server 实现。
#格物/AI
关于灵魂伴侣与“向下兼容”的思考
2025 年 03 月 09 日 - 22:44:52 有个观点说,爱情中的“灵魂伴侣”大多是有一方在向下兼容。一方在性格上可能更宽容,更能包容另一方。
我对灵魂伴侣最本质的理解是一种在精神、情感和价值观上高度契合的深层关系。爱情的本质是两个人深度交流、互相激励、共同成长。
在我的理解中,爱情是两条独立平行线之间的交互。这两条“平行线”通过交流、理解和协作产生互动,从而形成一种有意义的联系。
相比之下,“向下兼容”这个词好像并不准确。不存在绝对的向下兼容,只是站在自己的视角,可能会觉得对方带来的感受和包容度非常高。实际上,对方在某种程度上可能也有同样的感受,只是我们无法证明对方意识的存在。如果单方面的兼容不被理解,这样的交互会很困难。
其实从小到大,父母、老师不也都是这样吗?一直在包容我们罢了。交互的过程很重要,成长的过程也很重要。
大多数关系是浅层次的,少数关系可能带来共鸣,极少数可能是灵魂伴侣。理解并接受这种分布,不对每段关系都抱有过高期待。
无论是一两个阶段性的共鸣,还是灵魂伴侣带来的深刻连接,都值得用心体验,同时坦然面对它的变化。
#观我/情感认知
当局者迷,旁观者清
2025 年 03 月 10 日 - 00:10:15 对你来说是你的经历,对我来说是我的人生。
很多事也许真是当局者迷,旁观者清。身在局中的人觉得好复杂、好纠结,但其实跳到局外,用最简单普世的道理就可以判断。
所以,局中人往往不应轻易否定旁观者的审视和视角。
#观我/处世之道
以代际的眼光看待中国的发展
2025 年 03 月 10 日 - 00:24:47 中国大地上的事情是无穷无尽的,不要在乎一城一池的得失,要执着。
一个国家是由具体的人构成的,它由这些人创造并决定。只有一个国家能够拥有那些寻求真理、独立思考、记录真实、不计利害为这片土地付出、捍卫自己宪法权利、知道世界不完美但仍不言放弃的人,我们才能说,我们为祖国骄傲。只有当一个国家真正拥有这样的头脑和灵魂,我们才能有信心让明天更好。
任何机制和时代都需要寻找其因果。我们不能抛开改革开放的视角。改革开放的加速度其实在 2008 年以后开始呈现相对平稳、斜率下降的趋势,经济周期的转折点已经出现。我们需要意识到经济是有周期的,而不是无限增长的。
这一代领导人是特殊时期成长起来的,人和制度都是那个时代的产物。我们或许能接受暂时的倒退,并相信下一代领导人的才华。
#知世/社会观察
酒精如何让我们吐露真言
2025 年 03 月 10 日 - 11:18:56 酒精会对大脑功能产生抑制作用,尤其是负责判断、决策和自控能力的前额叶皮层。当这一部分功能受抑制时,人的理性判断和自我控制能力会下降,从而可能无意识地说出平时压抑或隐藏的想法和情绪。
#格物/科普
高效使用 AI 编程工具 Cursor 的技巧
2025 年 03 月 10 日 - 12:07:24
- 从模板开始:通过从 GitHub 或其他来源克隆模板来启动项目,以提供坚实的基础。可以在 Cursor 内部选择“从 Repo 开始”的选项,也可以用 https://bolt.new/ 创建基础的 demo,很好用。
- 结合 Trae 使用:在 Chat 模式下,Trae 的成本优势明显,且对多模态(尤其是图片)的支持更好,通过图片来修改前端页面效果很好。对于复杂项目的 Agent 逻辑,Cursor 处理得更好。
- 使用智能体模式:使用 Cursor 的 Agent 模式(而非普通模式)来通过自然语言命令创建、编辑和管理文件。
- 善于结合 Perplexity:可以利用 Perplexity 进行搜索,提供 API 的代码和示例。
- 在 Composer 中创建新对话:保持对话简短,专注单一任务。
- 不断迭代和改进。
- 结合 GitHub Actions 做自动化测试:用 Cursor 编写测试超级好用,投资回报率超高。
- 语音转文本工具:Whispr Flow 也很好用。
- 将错误交给 Agent 处理:这是一个很明智的选择。
- 经常提交并规范追踪记录:对 Cursor 来说,这是一个很好的习惯。
- 持续部署项目:使用 Vercel。
- 记录常用的有效 Prompt:收集并整理自己的 Prompt 库。
#格物/工具使用
两款 AI 视频剪辑工具:Opus Clip 与 CapCut
2025 年 03 月 10 日 - 14:48:21 主要用了两个 AI 剪辑工具:
- Opus Clip: https://clip.opus.pro/
- 字节的 CapCut: https://www.capcut.com/
#格物/工具
AI 应用快速迭代的技术栈与部署逻辑
2025 年 03 月 11 日 - 01:37:34一套用于快速迭代的技术栈:
- 用 Cloudflare 提供一整套网络服务。
- 适当准备一些云服务器备用。
- 数据库也尽可能选择云数据库。
- GitOps 是通用能力,可以复用并指数级提高效率。
- Milvus、Pinecone 等向量数据库在 AI 应用中不可或缺。
- ELK Stack、Prometheus 或 Grafana 对系统运行状态的监控也很重要,这是一套方法论。
- AutoGPT / AgentGPT 在自动生成任务链路、验证 MVP 方面很有帮助。
- LlamaIndex 是非常好的后端数据管理工具。
#格物/软件工程
同路殊途:在行走中遇见各自的风景
2025 年 03 月 11 日 - 13:29:35 徒步时,伙伴喜欢低头看路,而我喜欢抬头看风景。对他而言,他专注脚下的路,偶尔抬头看一眼风景,感觉很神奇,仿佛风景是瞬移过来的。对我而言,眼中的美景一直在连续变化,让我每时每刻都处于心流状态,感觉和世界融为一体。
有人在享受走路,有人在享受风景。我们在走同样的路,却遇见了各自的风景。
#观我/人生哲学
AI 时代如何快速学习一个开源项目
2025 年 03 月 13 日 - 10:13:11
- 了解项目的背景、目标以及其作用。
- 阅读文档和入门指南。
- 理解项目结构和代码架构。
- 选择核心模块和关键代码进行深入研究。
- 利用并分析单元测试来理解功能实现。
#格物/学习方法
洒红节的感慨:关于无常、友谊与自我认知
2025 年 03 月 14 日 - 10:55:51 从早到晚,每个人的脸上都涂满了五颜六色的粉末,大家都很快乐。我有些感慨尼泊尔人的幸福,那种知足常乐、内心世界的富足。
白天的开心过后,现在有些惆怅。晚上恰好在路口遇到了明明姐、小熊和 Vanessa。
有些朋友大概率不会再相遇,有些爱情大概率不会有结果。那么我们就不去做了吗?
明天小熊和 Vanessa 就要离开尼泊尔了。我们在博卡拉相处了很久,一起上课、约饭。在加德满都时还没意识到朋友即将离开,这次偶遇,突然感慨或许这就是最后一面了。
明明姐说了一句:“又是最后一个离开,又是一个人走。”听起来有些落寞。走在路上,我忍不住哭了,但能感受到明明姐的理解。之前我们聊过,她问我朋友都离开了自己是什么感受,我说,以我对自己的了解,伤感是必然的,留下来的那个人往往更伤痛一些。但更重要的是对这份伤感的反思,对无常的反思,对生命意义和友谊的思考。我们在这条街道上拍了一张合影,或许是最后一张完整的合影了。
对无常的理解,对“一期一会”的理解。生命中的每一次相遇与离别,都是无常的缩影。无常并非冷酷的审判,它只是生命的本真,提醒我们接受变化,并在变化中寻找意义。无常并不意味着消极,它让我们更加懂得珍惜当下,把握每一个与亲朋好友相处的瞬间。正如樱花在盛开后迅速凋落,它的美丽恰恰源于短暂。我们的相遇与离别也是如此,虽稍纵即逝,却因其独特性而熠熠生辉。
我们曾真诚地对待彼此,珍惜每一次相聚的时光,即便知道分别在即。这种真诚并非为了挽留,而是对生命的尊重、对友谊的致敬。或许,这辈子我们再难相见,但那份情感不会因距离而消散,反而在离别中愈发珍贵。
前提是我们如何从中悟出对生命的感悟,以及自己的处世之道。
认识自我很难,面对自我更难。当我们对自己有足够的了解,并以真诚的态度面对感情时,就能清晰地看到它带给我们的成长和价值。无论结果如何,重要的是我们在这段过程中是否能提升自我,是否能与对方在尊重、理解与平等中找到共鸣。
#观我/生命感悟
AI 时代下前端开发的新趋势
2025 年 03 月 14 日 - 16:25:14 不可否认,AI 对前端一部分带来了机遇,一部分带来了挑战。
AI 时代上手前端更简单了。Cursor 等产品,甚至可以帮你从 1 到 N,再到 100。就算是不懂前端的人也能快速搭建出项目原型。
任何时代,与用户的交互都是不可避免的。从客观视角来看,技术的门槛降低了,但对于会前端的同学来说,效率更高了。利用好 GitHub 上的开源模板,比如 Vercel 的 AI Chatbot,许多网站和网页都可以快速缝缝补补地做出来。
例如,极简的 AI 搜索工具 https://github.com/zaidmukaddam/scira,还有一些 AI 集成服务,如 https://tavily.com/。
其实在项目前期,很多工具和方法能用服务就用服务,这能帮助我们更快地验证想法。
#格物/前端开发
关于 AI Agent 开发的深度思考
2025 年 03 月 14 日 - 19:05:56 Agent 是今年最火爆的词,今年也可能会是 Agent 的元年。
关于大模型如何使用 Tools,现在有 Computer/Browser Use 和 Agent 协议两种主流方案。
后者以 Anthropic 去年发布的 MCP(Machine-to-Machine Communication Protocol)为主,当然也有 OpenAI 的 Function Call,但它更侧重于提供一个简单易用的接口,而非标准化。MCP 的标准化接口可以更好地支持多样化的工具和场景。比如计算 1+1=2,用 Function Call 很简单,但要自动化一个完整的数据分析流程,就不行了。
前者在缺乏标准化接口的场景下,可以通过模拟操作快速实现功能验证,比如调用各种网页操作或某些应用程序。模拟用户操作是在 GUI 层,而 MCP 是在 API 层,一个效率低,一个效率高。MCP 更像是长期的标准化方案。
如果你面对的是一个你不能开发或修改的 Agent,那么通过 MCP 协议来接入外部服务就更有优势,因为它定义了一个开放和标准的接口。普通人都能一键安装 MCP 来实现业务能力。
另外,Agent 其实也一定有层级分类,现在这种感触尤其深刻,各种奇特的 Agent 都在出现。
- Workflow Agent:由 Prompt 和 API 调用组成的链条,具有一定自主性,但约束太多。
- 专业 Agent:能自主决定在系统中调用哪个工具,比如 AutoGPT 通过 CoT 技术分解复杂问题,动态选择最优解决路径。
- 通用 Agent (Agent 的 AGI):目前仍处于理论概念阶段。
Agent 的能力取决于:Agent = LLM + Memory + Planning Skills + Tool Use
比如 Claude 的 Computer Use 其实也是 Tool Use 的一种。
规划能力(Planning Skills)指将大任务划分为小任务,并进行反思和提炼——基于已有动作进行自我反思,从错误中学习并优化接下来的动作。此外,有论文提出了更细致的分类法:任务分解、多计划选择、外部模块辅助规划、反思与细化、记忆增强规划。这些方法并非孤立,而是相互交织,共同提升 AI Agent 的规划能力。
#格物/AI
在不确定性中追求意义与成长
2025 年 03 月 15 日 - 11:44:05 人生这道选择题,无论怎么选都会有遗憾。人们总认为没走的那条路才开满鲜花。
很多事情,看得太透彻了也没啥意思。别抗拒,别挽留。
面对如此丰富多彩的世界,尤其是像爱情这样复杂且多维的情感时,我们常常只能捕捉到其中的一小部分。这种张力正是人类不断探索、学习和成长的动力。
性、拥抱、约会都是爱的重要表现形式,但它们只是爱的外在体现。爱的本质更在于人与人之间那种深层次的情感纽带、理解与支持,以及共同成长的过程。
吃醋的本质在于内心的不安全感和对自我价值的不确定性。
面对喜欢的人吃醋,我学到了一个很好的方法:理解并包容对方很重要,这有助于化解误会,消除不必要的猜疑。
遇到喜欢的人会吃醋是正常反应。以前我也有过很多次这样的现象,但却没有进行过本质的反思。现在我认为,去理解和管理这种情绪,去思考自己为什么会吃醋,思考对方这么做的原因,是一个很好的成长养分,可以帮助自己和对方共同进步。当然,过度的吃醋可能是强烈的占有欲作祟。
#观我/个人成长
多模态 Chat 的设计思考
2025 年 03 月 16 日 - 11:23:19
多模态交互目前涉及文本、图像、声音、视频、网页、数据文件和传感器等多种形式。这些形式既可以是发送的格式,也可以是接收的格式。
Claude Artifacts 的设计逻辑有所不同,它能生成多种类型的内容,为使用交互式元素提供了开创性的机会,从原型到功能齐全的 Web 服务。它可以在一定程度上自动选择输出形式,例如:
- 交互式文档
- 数据和流程可视化
- SVG 图形,包括商标
- 网站结构
- 序列图等复杂可视化文档
预计 Artifacts 未来支持的类型会越来越多。类似的产品,如 Google NotebookLM,也采用了相似的形态,允许用户操控代码和进行交互设计。
#格物/产品设计
尼泊尔华裔老板引发的跨文化反思
2025 年 03 月 16 日 - 11:51:52
经历复原
约好和朋友出去玩,上午在她住的酒店公共区等她。酒店老板是一位马来西亚华裔女性。我作为数字游民,就拿出电脑办公,为避免麻烦,连接的是自己的热点,用完的纸巾也自己带走。
朋友上楼后,老板过来问我是否住在这里,得知我住在隔壁后,她接连追问我的酒店是否有Wi-Fi和公共空间,最后说这里只给客人使用,不欢迎我。我当时提出可以付小费,并保证离开前会打扫干净,但她依然坚持让我回自己酒店。
思考与反思
老板的行为动机,可能是担心没有利益关联的人占用资源,把我当成了“蹭”座位的投机者。当我解释是在等住在这里的朋友时,她似乎有些愧疚。
这个小冲突让我反思了规则与人情在不同文化中的平衡。国内的文化体系受儒家“中庸”思想影响,往往在规则与人情间寻求平衡。而在尼泊尔,当地服务业通常以友好和热情著称,规则的强调往往通过显著、透明的标识来实现。
这次经历让我意识到,全球华人文化在传播和适应新环境的过程中,会与当地文化产生碰撞,形成独特的行为模式。人性中基于过往经验形成的直觉,往往是过时或片面的。我们需要不断地更新自己对一个文化系统的认知模型,用交流和经验作为养分,用逻辑和推理来构建理性的行为指导。
人性在规则(秩序)和人情(情感)间摇摆,不同文化背景的个体倾向也不同。理解这一点,有助于我们更好地预测和应对他人的反应,并在面对不信任时,尝试超越情绪,探寻行为背后的文化或个人原因,从而实现更有效的沟通。
#知世/文化冲突
Claude Artifacts:AI 生成内容的新范式
2025 年 03 月 16 日 - 13:13:45
Claude Artifacts 是 Anthropic 推出的一项功能,它允许 Claude 模型在对话中生成和展示丰富的、交互式的内容块,而不仅仅是文本。这些内容块(Artifacts)会显示在一个专门的侧边栏窗口中,与聊天界面并存。
用户可以直接与这些 Artifacts 互动,例如查看代码、编辑网页设计、或者运行一个小的应用程序。这极大地扩展了 AI 助手的应用场景,从一个“问答者”变成了一个“创造者”和“协作者”。
#格物/AI
再访烧尸庙:对“圆台”的遐想
2025 年 03 月 16 日 - 15:13:45
远远望去,那些圆形的石台散落在河岸两侧,有的在西岸的树丛里,有的靠近东岸的火葬区。我一开始以为是某种祭坛,后来才知道,这些可能是苦行僧(Sadhu)修行的地方,或是信徒举行特殊仪式的小平台。
它们不像火葬台那么显眼,却总能吸引我的目光——尤其是当有人趴在上面,或者像跳舞一样动来动去的时候。
#知世/旅居
关于建议的艺术:放手与帮忙的平衡
2025 年 03 月 18 日 - 01:59:29
给不给建议,没有标准答案,像在“放手”和“帮忙”之间找平衡,主要取决于关系、情景以及对方是否真的需要。
主动提建议前的思考:
你多说一句,就可能影响别人的决定,等于介入了他的生活轨迹。万一建议不好,你可能还得承担些责任。但实际上,我们只负责播种和浇水,无法控制果实,何必过分纠结。
人性与建议:为何人们讨厌建议?
大多数人在听到建议时会本能地保护自尊心。建议往往可能夹带着建议者的优越感、控制欲或期待被认可的私心。经验比观点更深刻,是宝贵的一手资料。我们在分享经历和观点时,其实也是在反思和了解自己。
另外,控制欲也是一个因素,尤其在国内的亲子关系中。青春期的孩子尤其讨厌别人插手自己的事。信任关系也很关键,如果关系不够,对方反而会怀疑你的动机。
如何正确地给出建议:
- 先倾听,后开口:搞清楚对方在想什么,他的处境和视野盲区在哪。
- 给选项,不下令:提供选项或补充信息,而不是命令。每个人都有权自己做决定,哪怕你觉得他可能会栽跟头。
- 看时机,避开情绪:避免在对方情绪化或不够理性的时刻给建议。
实践指南:
- 多讲故事,少讲道理:经历往往比观点更能引发思考。
- 多问问题,引导思考:
- 你真正想要什么?
- 试过哪些方法?
- 最怕发生什么?
建议的价值,不在于你说了什么,而在于对方听进去了什么。
#观我/人际关系
人性的复杂与宽恕的力量
2025 年 03 月 18 日 - 15:04:59
在西方个人主义观念中,人们在犯错后很少会自我责备。相比之下,受儒家思想影响的东方传统文化更重视谦逊和反省。然而,西方文化强调自我价值和激励,即使失败也更容易通过积极的自我暗示来保护自尊。
人们害怕责备,本质上是害怕不被理解。如果用理解代替指责,设身处地去想对方为何如此,同情、善意和宽容便会油然而生。所以,不要批评、不要指责、不要抱怨。
与人打交道时,请牢记:人并非纯粹的理性生物。他们被情感驱使,被偏见支配,傲慢与虚荣是其动力之源。
愤怒很简单,而宽恕、理解、原谅则很难,这些都是人性中宝贵的财富。
了解一切,就能宽恕一切。
#观我/人性
理解个性
2025 年 03 月 19 日 - 13:56:03
“个性”是一个非常广泛的词,它可能覆盖了“人格魅力”。“人格”是指个体思维、情感和行为的特征模式,以及这些模式之下隐藏或显露的心理机制。相比之下,“性格”是一个更大众化的词汇。
#观我/心理学
AI 模型服务商的两种模式:集大成者与专精者
2025 年 03 月 19 日 - 15:15:11
目前市场上的 AI 模型服务商大致可以分为两类:
一类是像 Fireworks.ai 这样,面向终端应用的“集大成者”。它强调让用户直观地看到推理过程、参数设置及各种选项,操作更灵活。它将各类模型和服务汇聚到统一界面,方便业务层用户直接调用。
另一类则是像硅基流动或 OpenRouter 这样,深耕技术细节、满足高端定制需求的“专精者”。
#格物/AI
Cursor 的 MCP 协议:一个可插拔的插件系统
2025 年 03 月 20 日 - 00:48:17
Cursor 的模型上下文协议 (MCP) 感觉更像是一个插件系统协议,它标准化了应用程序向大语言模型 (LLM) 提供上下文和工具的方式。
有趣的是,Cursor 的 MCP 似乎比 Claude 的更有趣,价值也可能更大。我们可以将 AI 平台的 MCP 想象成一个可插拔的客户端系统,允许用户通过图形界面(GUI)或命令行(CLI)来安装、配置和管理各种 MCP 服务器。
它支持多种传输协议(如 stdio 和 SSE),并能链接各种数据源,这让它变得非常有意思。
#格物/AI
Context 的可控性与人机交互
2025 年 03 月 20 日 - 17:42:32
Context(上下文)是应用可以自己控制和调整的,这一点对于人机交互至关重要。
例如,Cursor 就是通过 Context 来控制代码文档的,可以指定网站、文件、外部网页地址以及 Git 上下文。值得注意的是,这些规则是可配置的,甚至可以设置 MCP(模型上下文协议)来进行更精细的控制。
#格物/AI
狗的表达方式:环境塑造的沟通密码
2025 年 03 月 21 日 - 22:29:55
狗之间有一套我们也能轻易辨别的交流方法。例如,直视狗的眼睛代表敌意;它们通过嗅闻对方臀部来识别身份、性别和状态;尾巴的姿态直接反映了它们的心情。
有趣的是,狗的表达方式也是环境的产物。尼泊尔的流浪狗与人共存已久,环境相对宽松,生存压力小,因此显得更松弛。而国内的家犬被圈养,领地意识强,对陌生人更具警惕性和攻击性。狗的生存依赖主人,环境不再是共生的,而是分隔的。
存在总是与世界纠缠。顺应世界的方式不同,一种是被接纳的自由,一种是被限定的守护。
#知世/观察
相见不如不见
2025 年 03 月 21 日 - 23:10:21
如果见面只会带来尴尬、负担甚至痛苦,那刻意维持关系的意义是什么?是为了满足自己的情感需求,还是为了迎合别人的期待?
这背后藏着一个更深的问题:关系的意义,到底是主动追求来的,还是自然流淌出来的。
#观我/人际关系
借鉴与抄袭:创意的炼金术
2025 年 03 月 21 日 - 23:11:10
好的产品设计在大众审美中最终会趋于相似。
抄袭是什么? 是指毫无思考地复制他人创意,只停留在模仿层面。
借鉴又是什么? 是在长时间思考后,对某种美好形态产生独特构想;在苦思冥想、反复尝试后,突然灵光一现——从某个触动心弦的细节中恍然大悟,这正是自己所追寻的灵感!
借鉴的妙处在于,它不是掠夺,而是通过他人的火花点燃自己的火焰。就像失恋后听到一首伤感歌曲,某段歌词触动了内心深处,那种情感正是自己一直在寻找的表达。
创意往往是集体智慧的结晶,关键在于你如何将这些灵感“消化”成自己的东西。
#观我/创造力
理性与感性的极致相通
2025 年 03 月 22 日 - 12:18:46
绝对的二元对立并非真理,而是人类语言和思维的产物。对与错,往往取决于观察者的立场。道家思想也说,祸福相依,好坏是动态平衡的一部分。
认知心理学的“思考快与慢”双系统理论,将思维分为快速直觉的感性系统和缓慢分析的理性系统。感性效率更高,消耗能量更少,生活中的许多行为,如脱口而出的话语,其实都是直觉性的。
感性的背后也有一套机制,其选择、风格和表达都蕴含着深层的“感性逻辑”。当感性达到极致,它会突破混乱与自我,变成一种深度的通透和认知——这便是另一种形式的“理性”。
道家追求超越所有概念的平和,回归本源的整体性思维,其核心在于“放下”——放下执念与自我,最终与“道”同在。
#观我/哲学
形而上学:研究“看不见的本质”
2025 年 03 月 22 日 - 12:34:40
形而上者谓之道,形而下者谓之器。
在西方哲学中,形而上学是研究存在本质、宇宙根源、时间、空间、因果、灵魂等抽象问题的分支,是人类对根本问题的终极追问。它关心的不是“事物是什么样”,而是“为什么是这样,其本质是什么”。
它与玄学不同,更倾向于体系化、抽象化的哲学思考。玄学则带有更多的直觉性、神秘性或文化传统特点。对大多数人来说,玄学可能在日常生活中“帮助感”更强,因为它更贴近情感和直觉。但玄学依赖直觉力、悟性和灵性,更像是一种“道”的修炼,往往显得神秘且需要缘分。
#格物/哲学
家庭教育的核心:品德、价值观与以身作则
2025 年 03 月 22 日 - 16:19:31
朋友认为欧美的孩子更自由,能探索世界、追求爱好。但西方的“快乐教育”真的好吗?他们从小教育孩子独立思考、为自己人生负责,而我们受儒家思想影响,更强调集体感、家庭责任和稳定。
自由应带有底线,独立也需存有归属感。父母需要构建一个体系来把握孩子成长的大方向和安全底线。
最好的教育,应该是基于对世界的理解,并符合未来发展的教育体系。接触自然并非最核心,培养孩子的品德、人生观和价值观才最重要。这需要让孩子理解世界的复杂性,同时父母要以身作则——经验比观点更重要,身教远大于言传。
当然,每个人都有权选择自己的教育方式,没有绝对的对错。
#观我/教育
WebRTC 的应用场景思考
2025 年 03 月 23 日 - 20:38:00
WebRTC 提供了端到端的策略,在物联网领域有很大的适用场景。
需要留心一下 musetalk
和 musev
的应用。
目前支持 RTC 的一些策略:
- OpenAI:支持 Realtime API。
- Hugging Face:推出了 Fast RTC,一个开源的 WebRTC 库,同样支持 WebSocket、STT 和 TTS。
#格物/AI
AI 开发中最惨痛的教训
2025 年 03 月 25 日 - 16:45:12
多 commit,并且精确地描述每一次 commit。
#一闪
事件总线:构建松耦合的系统
2025 年 03 月 29 日 - 10:08:15
事件总线和消息事件流水线设计的核心在于实现模块间的松耦合。通过事件传递而非直接调用,每个模块只需专注自身业务逻辑,无需了解其他模块的实现细节。
事件总线就像一个中介,让各个模块可以独立开发、测试和部署。新的模块和功能只需注册到事件流水线中即可。
#格物/软件工程
父辈的爱:兜底而非设限
2025 年 03 月 29 日 - 10:09:24
父辈只是想用自己的经验,为我们谋得一份幸福。
但他们的经验,可能并不适用于未来的时代。最终,这取决于孩子的选择。
父辈所做的,是为我们兜底,而不是给我们设限。
#一闪
“追”的背后:对意义的探寻
2025 年 03 月 29 日 - 10:20:05
“追”谁这件事,表面看是个人喜好,深挖后其实反映了一个人内心对“意义”的追求和对“存在”的理解。
- 追星:多为情感驱动,明星身上承载了理想化的形象——美、活力、成功,或是逃避现实的梦幻泡影。
- 追科学家:更偏向理性,崇拜的是人类的智力和探索精神,在乎的是“人类整体进步”这类宏大叙事。
- 追作家:往往被故事、情感和语言的深度所吸引,他们在寻找共鸣,或试图通过他人的笔触来理解自己,更具内省色彩。
人性的需求本质上没有高低之分,每个人所追寻的,不过是内心需求的投影。关键在于,这个过程是否真诚,是否有所得。
#观我/心理机制
尼泊尔政治动荡的思考
2025 年 03 月 30 日 - 09:43:33
尼泊尔动乱最主要的原因在于长期的政治不稳定和治理不力,政府更迭过快以及普遍的腐败,这背后是民众对稳定的深切渴望。
从中国的角度来看,更倾向于支持长期权力集中、继承制度明确的治理方式,因为共和制可能导致频繁的政治更迭和低效。这就像一个天平失去了平衡。
尽管如此,君主制复辟的几率依然较低。政府多次更迭和制度创新虽带来了混乱,但也形成了一套相对稳定的权力架构。恢复君主制不仅需要民意支持,还必须克服宪法和政治现实的重大障碍。目前,尼泊尔的主要政治力量、军队及国际社会都倾向于维护现有体制。
更何况,即使恢复君主制,也未必能从根本上解决现有问题。关键在于能否实现真正的政治稳定和高效治理。
#知世/政治