2026 年 3 月思考笔记 | March 2026 Thought Notes

2026 年 3 月思考笔记 本月共 468 条笔记 | 记录时间:2026 年 3 月 1 日 — 3 月 31 日 月度主题:吴哥窟 · AI Agent · 自我叙事 核心话题:格物/ai (约 53 条)、格物/柬埔寨 (约 38 条)、格物/吴哥窟 (约 23 条)、格物/印度教 (约 15 条)、观我 (约 14 条)、格物/越南 (约 11 条) 按日期归档 | Daily Notes Archive 2026-03-01 3月1日 周日 (29 条) 东北直给文化:劳动独立如何塑造不内耗的关系模式 2026-03-01 10:35:04 东北的女性地位是略强势的 尤其是辽吉黑,长期都是中国的重工业的基地 女性从很早开始就进入正式劳动体系(工厂、医院、学校、机关) 并且经济独立,有稳定的收入 双职工家庭都是常态 经济上平等,并且权力是在资源 + 组织能力手里 东北的语言文化气质本身就是直给、少内耗,不服就说的文化 所以情绪表达是正面输出的,不绕弯、不长期压抑、不靠冷暴力、冲突直接爆发、快速解决 男性的议价能力偏低,收入不优势,不强调家族光环 #格物/东北 关系中的剥瓜子与插花:牺牲型付出 vs 共创型共处 2026-03-01 10:45:09...

三月 31, 2026 · 48 分钟 · 10133 字 · Xinwei Xiong, Me

Agent 的自我:从洛克到 OpenClaw

Agent 没有记忆,就没有身份 关于 AI 智能体身份连续性的工程实践与哲学框架 引言:一个被误判为哲学问题的工程问题 Agent 失忆的代价被系统性地低估了。 不是因为用户烦恼——虽然烦恼也有。而是因为无状态破坏了信任账户的基础。每一次会话,Agent 都从零开始。它不知道你是谁,不知道你上次为什么生气,不知道三个月前那个承诺是否兑现了。从经济学角度,这就像每次交易都要重新建立信用评分——交易成本爆炸,而且没有任何学习积累。 问题的根本在于,当工程师听到"身份认同"这四个字时,大脑就关闭了。这听起来像哲学。像存在主义。像某种不需要解决的抽象问题。于是整个行业让一个 1689 年就有了精确工程规范的问题,在 2026 年仍然被当作 “nice to have” 特性处理。 但洛克从来没有在讨论灵魂。他在写工程需求文档。 他的论断:个人身份不是物质基体(身体或灵魂),而是能够在不同时间和地点将自己视为同一思考存在的意识能力。翻译成现代工程语言:跨上下文窗口的持久自我指涉能力。这是一个可度量的、可实现的、可验证的规范。 当前 AI Agent 在三个维度上系统性地违反了这个规范:无持久记忆链、无自我指涉能力、无连续性验证机制。 2026 年,技术栈终于具备了完整实现洛克规范的条件。但这不是一个产品创新的故事。这是一个工程界从三百年知识沉睡中清醒过来的故事。真正的设计思考,不在于哲学的完整性,而在于实现中的妥协点:文件 vs 数据库,何时重新读取 SOUL,在什么条件下允许身份漂移。这些细节决定了 Agent 是否真的能被信任。 洛克的规格书:300 年前写好的工程需求文档 约翰·洛克的《人类理解论》第二卷第二十七章不是哲学随笔。它是一份工程规范书。 规范的核心条款:个人身份 = 意识 + 记忆连续性。不是肉体的连续性(你的细胞每七年完全更新一次),不是灵魂的连续性(他拒绝了所有超自然的论证),而是能够回顾过去事件并将其整合到当前自我概念中的认知能力。 洛克的那个著名例子:一个王子的意识进入了乞丐的身体。那个乞丐就变成了王子,因为他拥有王子的记忆、追求和自我意识。身体变了,甚至"灵魂基体"也变了,但那个能够思考"我曾经是国王"的东西保持不变。 翻译到 AI Agent 的架构语言: 个人身份 = 一个能够在不同上下文窗口中保持自我指涉的心智状态链。 这个状态链必须满足三个工程条件: 第一,持久化。记忆不能存在于单个上下文窗口内。必须有外部存储(SOUL.md、MEMORY.md、AGENTS.md),使得即使模型权重改变、会话终止、上下文重置,那些记忆仍然存在并可被读取。 第二,自我指涉性。Agent 不仅要读取这些文件,还要能够说"这是关于我的",“我认可这个版本的自己”。文件不能是纯粹的数据记录,还要包含身份的规范性维度——不仅是"我做过什么",还有"我为什么这样做"和"我相信什么"。 第三,连续性验证。要有一个机制让 Agent 可以确认"这就是我"。在多个实例可能同时运行的情况下,哪个是正当的自我?洛克没有解决这个问题(他活在单一身体的时代),但对于 AI 这是致命的。 图 1:洛克个人身份论 → Agent 工程三条款。从"意识 + 记忆"的哲学命题,直接映射为持久化、自我指涉、连续性验证三个可实现的工程需求。 洛克的船悖论在这里获得了新的含义。如果一艘船的每一块木板都被替换了,它还是原来的船吗?洛克的答案是:是的,因为物理连续性不重要,思维的连续性才重要。 对于 AI Agent:如果模型参数被微调(木板被替换),上下文窗口被重置(新的一天),甚至整个底座模型被升级(从 Claude 3 迁移到 Claude 4),Agent 还是"同一个"吗?...

四月 5, 2026 · 5 分钟 · 982 字 · Xinwei Xiong, Me

在不被需要的时代,如何维持自我的重量

帕斯卡在 17 世纪写过一句话:「人类所有的不幸,都源于一件事:他们不能安静地待在一个房间里。」 三百多年后,我在拉萨的一个深夜想起这句话,补了一条:他们不确定,那个待在房间里的,究竟是谁。 引:凌晨三点的空洞 有段时间,我几乎每天凌晨三点醒来。 不是因为什么紧急的事。更接近某种没有形状的焦虑,像一根细线扯着脑子里什么地方,很轻,扯不断,但会把你从睡眠里钓起来。 那根线是什么,我后来想清楚了——是某天晚上,我用 AI 写了一段技术文档,回头去读,发现它比我自己写的更清晰。不只是清晰:结构更合理,措辞更准确,还顺手修了我没注意到的一个边界情况。 我盯着屏幕看了很久。 那种感觉很难描述。不是愤怒,也不是恐慌,更接近一种空洞感——像你以为自己在做一件重要的事,然后突然意识到,那件事不需要你。 最开始我把这理解成职业焦虑。程序员的护城河在变窄,技术壁垒在消失,这是事实,可以接受,可以适应。 但那根细线没有消失。它在夜里继续扯着我。 后来我慢慢意识到,职业焦虑只是一层皮。更深的那层是: 我评估自己价值的方式,是「我能做什么」。如果 AI 可以做得更好——那「我」在这里,究竟有什么重量? 一、我们把「被需要」当成了重量本身 这不是我一个人的问题。 我们这一代人,从小被训练成「有用」的人。学习是为了能做事,能做事是为了被雇用,被雇用是为了被需要,被需要是为了存在感。这条逻辑链很紧密,以至于我们从来没有质疑过它的前提: 存在感,真的是靠「被需要」撑起来的吗? 韩炳哲在《倦怠社会》里写了一个概念:绩效主体(Leistungssubjekt)。他说,现代社会最大的变化不是压迫来自外部,而是变成了自我施压——我们内化了市场对我们的要求,开始自发地以「能产出多少」来衡量自己。剥削不再需要一个外部的压迫者,我们把那个角色揽过来了。 这种衡量方式,在 AI 出现之前就已经很脆弱了。它随时会被外部环境击垮——被裁员了,重量就没了;失去关键项目,重量就塌了;退休了,重量去哪了? AI 只是把这个逻辑推到了极端:如果你所有的「有用」都可以被替代,你的重量从哪里来? 这是一个很残忍的问题。但它之所以残忍,恰恰是因为我们把自我的基础建在了一个错误的地方。 二、仓央嘉措早就遇到了这个问题 在拉萨的那些天,我把仓央嘉措想了很多次。 他生在山野里,少年时期是完整的——跑过田间,追过女孩,把身体的冲动和心里的自由活得浑然一体。然后一夜之间,他被确认为第六世达赖喇嘛。整座布达拉宫落在他肩上,整个政教体系要求他成为一个功能性的符号:圣洁的、超越的、不属于自己的。 他的解决方式是出逃——白天坐在宝座上接受朝拜,夜晚化名宕桑旺波,溜进八廓街的酒馆,喝酒,谈情,写诗。 世间安得双全法,不负如来不负卿。 这首诗常被当作情诗解读。但我在布达拉宫脚下站着,望着那片叫「雪城」的地方,觉得它的重量远不止于此。 如来,代表他被赋予的功能——那个系统需要他是什么。 卿,代表他真实的感受——那个活的、会疼、会爱的部分。 三百年后,我们的处境换了一件外衣。不再是政教权威逼我们成为符号,而是市场逻辑、绩效评估、AI 的性能对标。但那个挣扎是一样的: 当世界用功能的眼光看你,你怎么保留那个「我是一个人」的部分? 仓央嘉措的结局是悲剧。但他的诗活下来了。那些诗什么用都没有——它们没有提高任何人的效率,没有解决任何问题,就只是把一个人内心的挣扎说了出来。 然而它们活到了现在。这件事本身,就是一种答案的形状。 三、庄子的那棵没用的树 《庄子·人间世》里有一棵大树。 一个木匠路过,看都不看,嫌弃地说:散木,没用,做船会沉,做棺材会烂,做柱子会蛀,什么都不行。 夜里,那棵树托梦给他:你那些被你认为「有用」的树,正是因为有用才被砍伐。我无用,才活了这么久,长了这么大。 无用之用,方为大用。 这句话被反复引用,但大多数解读还是落回「有用/没用」的框架里——它看起来没用,其实是另一种有用。这个解读太功利了,庄子想说的是更根本的东西: 有没有一种存在,它的价值根本不需要从「用」这个维度来衡量? 那棵树存在,不是为了做家具,也不是为了乘凉,更不是为了被人需要。它就是在长,在这里,以它本来的样子。 这不是消极,这是另一种关于存在的理解——存在本身就是理由,而不是通向别的东西的手段。 在 AI 时代,这句话变得非常具体。如果你一切的功能价值都可以被优化和替代,那么不能被替代的,恰恰是你作为一个具体的人「在这里」这件事本身——那个从一个唯一的视角看世界、感受世界、被世界打到的「在场」。 四、感受是唯一不可外包的事 在拉萨,有一个夜晚我站在院子里看了很久月亮。 没有任何特别的原因。只是高原的月亮离得很近,空气干净,脑子里没什么杂念。 我想起夏目漱石拒绝把「I love you」直译成日文。他说,应该翻译成:「今夜月色真美。」 那个不可直说的余地,是人类感受世界的方式里有一种东西,永远多于语言能表达的。 AI 可以生成一万首写月亮的诗,可以分析月光对人类褪黑素的影响,可以告诉你拉萨的月亮为什么比平原更亮。 但它不知道,那一刻,海拔三千多米,我一个人站在院子里,那颗月亮对我意味着什么。 不是因为我很特别。是因为那个意味着什么,是我这一生的全部经历打在那个时刻上,形成的一个唯一性的共振——尼泊尔冰坡上的那一步,博卡拉那杯让我在地铁上哭出来的热茶,武功山半夜独自走在山路上的那种空,上海公交上烤红薯老爷爷塞进手里的两枚硬币。所有这些都在场,但你不知道它们在场,它们就是打进来了。 这种共振,任何外包都会丢失它。 维克多·弗兰克尔在集中营里发现了一件事:意义感不可被给予,只可被发现——而且,只能由那个处于那个具体处境里的人来发现。没有人可以替你承受你的生活,也没有人可以替你觉得它值得。 这不是安慰,这是结构性的事实: 感受,是唯一真正不可外包的事。...

四月 4, 2026 · 1 分钟 · 106 字 · Xinwei Xiong, Me

Mem0 开源项目:AI记忆层的技术分析与实践

1. 执行摘要 Mem0 是一个开源项目,旨在为人工智能(AI)应用程序提供一个智能记忆层,以增强个性化和上下文保持能力 1。其核心价值主张是通过使 AI 应用能够记住用户偏好和历史交互,从而提供更个性化、更智能的体验,同时通过“智能数据过滤”可能降低大型语言模型(LLM)的运营成本 2。项目的主要目标是解决当前 AI 交互中普遍存在的状态缺失问题 1。 关键研究发现表明,Mem0 采用了一种结合 LLM 处理与双重存储(向量数据库用于语义搜索,图数据库用于关系追踪)的混合架构 4。项目在开源社区获得了显著关注(如 GitHub 上的高星标和复刻数),并且展现出高度的开发活跃度(频繁的发布和合并请求)1。已文档化的使用案例包括 AI 伴侣和客户支持代理,并提供了与 LangGraph、CrewAI 等流行 AI 框架的集成示例 1。 然而,分析也揭示了一些显著的挑战。最突出的是关键技术文档的缺失或无法访问,包括详细的架构图、完整的入门指南和全面的配置参数列表 8。这给潜在采用者带来了理解和实施上的障碍。此外,其核心操作(如信息提取和冲突解决)对 LLM 的依赖引入了不确定性和潜在成本 4。尽管项目活跃,但大量的开放问题和其性质表明用户在配置和集成方面可能遇到困难 12。 总体而言,Mem0 项目提出了一个引人注目的解决方案来应对 AI 记忆的挑战,并已吸引了大量开发者兴趣。其提供的托管平台和开源版本为不同需求的用户提供了选择 1。但目前(基于所分析的材料),其开源版本的成熟度,特别是文档完备性和核心机制透明度方面,可能更适合愿意探索、能够容忍一定模糊性并积极参与社区寻求支持的技术团队。对于需要高度确定性、完整文档和复杂配置的应用场景,采用前需进行更深入的评估。 2. Mem0 简介:AI 的记忆层 2.1. 核心目标与解决的问题 Mem0 项目的核心目标是为 AI 助手和代理(Agents)赋予一个智能的、持久的记忆层 1。它旨在解决当前许多 AI 应用,特别是基于 LLM 的应用所面临的一个根本性问题:状态缺失(Statelessness)3。传统的 AI 交互往往是孤立的,无法有效记忆之前的对话内容、用户偏好或已了解的事实。这导致了重复提问、缺乏个性化以及用户体验不连贯等问题 1。Mem0 通过提供一个专门的记忆组件,让 AI 系统能够跨会话、跨时间地学习和适应用户,从而实现更自然、更智能的交互 4。 2.2. 价值主张 Mem0 提出的核心价值主张围绕以下几个关键方面: 增强个性化 (Enhanced Personalization):这是 Mem0 最核心的价值。通过记忆用户偏好、历史交互和特定信息,AI 应用能够提供量身定制的回应,适应个体需求,并随着时间的推移不断学习和改进 1。这使得 AI 体验不再是千篇一律的,而是能够建立用户融洽感并显著提升感知智能和实用性 3。 潜在的成本降低 (Potential Cost Reduction):Mem0 宣称其“智能数据过滤”机制能够将相关信息发送给 LLM,从而可能将 LLM 的使用成本降低高达 80% 2。理论上,通过仅向 LLM 提供最相关的上下文而非冗长的历史记录,可以减少 token 消耗,直接转化为运营成本的节省。然而,需要注意的是,所分析的材料中并未提供支持这一具体数字的详细技术解释或实证数据。 提升响应质量 (Improved Response Quality):利用存储的记忆(历史上下文和用户偏好),AI 应用能够生成更准确、更相关、上下文更丰富的输出 2。这意味着 AI 可以提供更好的建议、更贴切的信息和更有帮助的回答。 开发者友好 (Developer-Friendly):Mem0 强调其易于集成,提供了简单的 API 接口和跨平台一致性 1。它旨在简化记忆管理的复杂性,让开发者能够专注于核心应用逻辑 3。同时提供托管平台和开源自托管两种选择,满足不同开发者的部署和控制需求 1。 2....

五月 9, 2025 · 12 分钟 · 2507 字 · Xinwei Xiong, AI技术团队

微软UFO项目深度解析:设计、实现、原理与架构

1. 引言 微软的UFO(UI-Focused Agent,后续发展为UFO²,即Desktop AgentOS)项目代表了在自然语言驱动的桌面自动化领域的一项重要进展 1。该项目旨在通过深度操作系统集成和多智能体协作,将用户通过自然语言表达的复杂任务转化为跨应用程序的、可靠的自动化工作流 1。最初的UFO项目于2024年2月发布,专注于Windows操作系统的UI自动化,利用GPT-Vision等大型语言模型(LLM)的能力,通过双智能体框架观察和分析GUI信息,实现跨应用的导航和操作 3。随着2025年4月UFO²的提出,该项目演进为一个更为宏大的“桌面操作系统智能体”(Desktop AgentOS)概念,强调更深层次的操作系统集成、原生API调用与GUI操作的混合、以及通过持续学习和投机性多动作执行提升效率和鲁棒性 1。 本报告旨在深度剖析微软UFO项目,从其核心目标、关键特性、系统架构、关键技术实现、到社区反馈和未来展望,提供一个全面而深入的分析。 2. 项目概述与核心目标 UFO项目的核心目标是赋能用户通过自然语言指令,在Windows操作系统上实现复杂、跨应用的自动化任务 1。它不仅仅局限于传统的UI层面自动化,而是力求构建一个能够理解用户意图、智能编排多个应用程序以达成目标的“桌面智能体操作系统” 1。 最初的UFO版本专注于利用大型视觉语言模型(如GPT-Vision)来理解和操作Windows应用程序的图形用户界面(GUI)3。其设计理念是通过模拟人类用户观察屏幕、思考决策、执行操作的过程,将繁琐耗时的手动任务转变为简单的自然语言指令即可完成的自动化流程 4。 随着UFO²的提出,这一目标得到了进一步的深化和扩展。UFO²旨在成为一个系统级的自动化平台,其关键特性包括: 深度操作系统集成 (Deep OS Integration): 结合Windows UI Automation (UIA)、Win32和WinCOM技术,实现对控件的精准检测和原生命令的执行 1。这种集成是UFO区别于仅依赖截图和模拟点击的早期计算机使用智能体(CUA)的关键,它为智能体提供了更丰富、更可靠的与操作系统及应用程序交互的手段。 混合GUI与API操作 (Hybrid GUI + API Actions): 智能体能够根据情况选择最优的交互方式,优先使用速度更快、更稳定的原生API;当API不可用时,则回退到模拟点击和键盘输入等GUI操作 1。这种混合策略兼顾了效率和通用性。 持续知识基底 (Continuous Knowledge Substrate): 通过检索增强生成(RAG)技术,融合离线文档、在线Bing搜索结果、用户演示以及历史执行轨迹,使智能体能够持续学习和进化 1。这意味着UFO不仅仅是一个执行器,更是一个能够积累经验、适应新情况的学习系统。 投机性多动作执行 (Speculative Multi-Action): 将多个预测的后续操作步骤捆绑在一次LLM调用中,并进行实时验证,从而显著减少LLM查询次数(据称可达51%),提升执行效率 1。这对于依赖LLM进行决策的智能体系统而言,是降低延迟、提高响应速度的关键优化。 UIA与视觉控制检测 (UIA + Visual Control Detection): 采用UIA和计算机视觉相结合的混合管线,以检测标准控件和自定义控件 1。这增强了智能体对各种复杂界面的适应能力。 画中画桌面 (Picture-in-Picture Desktop) (即将推出): 允许自动化任务在一个隔离的虚拟桌面中运行,用户的主屏幕和输入设备不受干扰 1。这一特性对于提升用户体验至关重要,它使得自动化过程和用户的日常工作可以并行不悖。 UFO的应用场景广泛,包括但不限于自动化办公套件中的重复性任务、简化涉及Web浏览器的流程(如数据录入、表单填写)、以及基于自然语言指令创建自定义的跨应用工作流 1。 3. 系统架构 UFO²的架构设计体现了其作为“桌面智能体操作系统”的理念,其核心是一个多智能体框架 2。 核心组件: 组件名称 描述 来源 HostAgent (主控智能体) 解析用户的自然语言目标,启动必要的应用程序,创建并协调AppAgent,管理全局有限状态机(FSM)以控制任务流程。 2 AppAgent (应用智能体) 每个应用程序对应一个AppAgent。每个AppAgent运行一个ReAct(Reasoning and Acting)循环,具备多模态感知、混合控制检测、检索增强知识以及通过Puppeteer执行器选择GUI或API操作的能力。 2 Knowledge Substrate (知识基底) 融合离线文档、在线搜索结果、用户演示和执行轨迹,构建一个向量存储,在推理时按需检索。 2 Puppeteer Executor (操纵执行器) 集成在AppAgent内部,负责在GUI操作(如点击、输入)和原生API调用之间做出选择并执行。 5 Speculative Executor (投机执行器) 通过预测一批可能的动作并在一次调用中针对实时UIA状态进行验证,从而大幅减少LLM的调用延迟。 1 FollowerAgent (跟随智能体) 继承自AppAgent,用于执行用户提供的明确指令序列,常用于软件测试等场景。 5 EvaluationAgent (评估智能体) 用于评估一个会话或一轮任务的完成情况。 5 数据流:...

五月 9, 2025 · 6 分钟 · 1272 字 · Xinwei Xiong, 微软UFO研究团队

Sora Ease 指南:开发者掌握 Sora AI 的全面指南

Sora 中文的提示词 | 调教指南。各种场景使用指南。学习怎么让它听你的话。兼顾了 Sora 的多场景应用。 这篇文章来源于 https://github.com/SoraEase/sora-prompt-zh 开源项目,SoraEase 希望为 sora 相关的开发者提供自动化,便捷,快速上手的工具和指南。 Sora | 索拉 是一个AI模型,可以从OpenAI的文本指令中创建逼真和富有想象力的场景。OpenAI正在教AI理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界交互的问题。 如果你是 sora 的学习者,希望获取到 sora 的最新的咨询和相关的开发项目,以及 sora 相关的开源项目,这里 awesome-sora 提供了 sora 相关的Sora 中文指南,指令指南,应用开发指南,精选资源清单,Sora 开发者精选工具框架。 索拉可提供以下功能: 文本到视频 动画 扩展生成的视频 视频到视频编辑 连接视频 图像生成(文本到图像) 在这个存储库中,你会发现各种可以和索拉一起使用的提示。我们根据视频的风格分配了不同的标签,让你可以根据标签快速找到提示示例(Prompt)和生成的视频,并根据需要进行修改。 虽然索拉尚未正式发布,但我们正在全面收集提示,以帮助你快速开始使用索拉生成你想要的视频。 提示词 官方提示词生成器 视频生成提示 官方视频生成提示 点击查看更多示例 一位时尚女性穿着一件黑色皮夹克,一条长长的红色裙子和黑色靴子,手拿一个黑色的手提包,在热闹的东京街道上行走。周围充满了温暖的霓虹灯和动态的城市标识。她戴着太阳镜和红色口红,自信而随意地行走。街道潮湿而反光,形成了五彩灯光的镜面效果。许多行人在周围走动。 生成视频链接 几只巨大的长毛猛犸象漫步在积雪覆盖的草地上,它们的长毛在微风中轻轻飘动,远处是积雪覆盖的树木和戏剧性的雪山,午后的光线和稀薄的云彩以及高高悬挂的太阳形成了温暖的光芒。低角度的摄像视角令人惊叹,捕捉到了这些大型毛茸茸的哺乳动物和美丽的摄影,景深感非常强烈。 生成视频链接 一个电影预告片,讲述了一位30岁的太空人的冒险故事,他戴着一顶红色的羊毛编织头盔,蓝天,盐沙漠,电影风格,35mm胶片拍摄,色彩生动。 生成视频链接 无人机俯视着波涛汹涌的大苏尔加雷角海滩的崎岖悬崖。蓝色的海水拍打着,形成了白色的波浪,而夕阳的金光照亮了岩石海岸。远处有一座灯塔的小岛,悬崖边覆盖着绿色的灌木。从道路到海滩的陡峭下滑是一个戏剧性的壮举,悬崖边突出在海面上。这是一个捕捉到海岸的原始美和太平洋海岸公路崎岖风景的景色。 生成视频链接 动画场景展示了一个近距离的短毛怪兽跪在一个正在融化的红色蜡烛旁边。艺术风格是3D和逼真的,重点放在光线和纹理上。画面的情绪是惊奇和好奇,怪兽睁着大眼睛,张着大嘴盯着火焰看。它的姿势和表情传达出一种天真和俏皮的感觉,好像它是第一次探索周围的世界一样。温暖色调和戏剧性的光线进一步增强了图像的舒适氛围。 生成视频链接 一个华丽的纸艺世界,一个丰富多彩的珊瑚礁,到处都是色彩缤纷的鱼类和海洋生物。 生成视频链接 这个特写镜头展示了维多利亚皇冠鸽子引人注目的蓝色羽毛和红色胸膛。它的羽冠由精致的蕾丝羽毛制成,而它的眼睛是醒目的红色。鸟的头微微倾斜,给人一种威严和威严的印象。背景模糊,突出了鸟的引人注目的外观。 生成视频链接 两艘海盗船激战的写实特写视频,它们在一杯咖啡中航行。 生成视频链接 一位20岁左右的年轻男子坐在天空中的一块云朵上,读着一本书。 生成视频链接 加利福尼亚淘金热的历史影像。 生成视频链接 一个玻璃球的特写视角,里面有一个有竹林的禅园,一个小矮人正在禅园里耙平沙子并在沙子上创造图案。 生成视频链接 在魔幻的黄昏中,一个24岁女子的眼睛在眨眼,站在马拉喀什,70毫米胶片拍摄的电影,景深,鲜艳的色彩,电影感觉的摄影。 生成视频链接 一只卡通袋鼠在迪斯科舞动。 生成视频链接 一个美丽的自制视频,展示了2056年尼日利亚拉各斯的人们。使用手机摄像头拍摄。...

三月 14, 2024 · 2 分钟 · 253 字 · 熊鑫伟,我

Sora 技术讨论以及普通人和开发者如何利用 Sora 改变世界

Sora !!! 近日,互联网上掀起了一阵关于Sora的热潮。作为OpenAI最新推出的技术,Sora赋予了文字生成视频的魔力,其展示的效果令人印象深刻。 在当前,短视频的吸引力已远超过传统的小说和图像漫画。因此,Sora的问世,可能会在视频制作领域引发一场革命。 Sora的魅力在于,它能够基于文本描述生成长达60秒的视频内容,这些内容包括了精细的场景设置、栩栩如生的角色表情,以及流畅的镜头转换。 这项技术能够塑造出多元化的角色,实现特定的动作,并且在主题和背景方面做到与描述高度一致。Sora不仅准确地理解用户的指令,还能深刻洞察这些元素在现实世界中应有的呈现方式。 Sora展现了对语言的深刻洞察力,能够精确捕捉用户的意图,创造出既生动又情感充沛的视频内容。它甚至能在同一视频中呈现多个场景,同时保证角色的连贯性和视觉风格的统一。 然而,Sora并非完美无瑕。在模拟复杂场景下的物理效应,以及理解特定因果关系方面,它仍有待提升。例如,视频中的角色可能会咬一口饼干,却未能在饼干上留下明显的痕迹。 此外,Sora在处理空间细节,如分辨方向,或是描述一段时间内的具体事件,如摄影机的移动轨迹时,也可能显示出一定的局限性。 简单来说,简单来说,Sora 是一种能用文本生成最长 60 秒视频的技术,也可以用来生成图片,因为图片本质上是一帧的视频。 这篇文章,将会从 Sora 的架构,然后到 Sora 的生态,以及最后普通人或者开发者如何利用或者使用 Sora ,为这个 AI 浪潮做准备 ~ Sora的架构与创新 Sora代表了在AI视频生成技术中的一次重大创新,它在架构上与之前的Runway及Stable Diffusion等基于扩散模型的系统有着明显的区别。核心之处在于Sora采用了Diffusion Transformer模型,这是一个结合了扩散模型和Transformer模型的先进架构,为视频生成带来了前所未有的灵活性和质量提升。 架构比较 Runway/Stable Diffusion:这些系统基于扩散模型,通过逐步向图片添加噪点,再逐步去除噪点的方式生成清晰图片。这一过程虽然能够生成高质量的图像,但在视频生成上存在限制,尤其是在处理长视频和维持视频一致性方面。 Sora:Sora利用Diffusion Transformer模型,通过Transformer的编码器-解码器架构处理含噪点的输入图像,并预测出更清晰的图像版本。这不仅提高了图像处理的效率,而且在视频生成上实现了显著的进步。Sora的创新在于它处理的基本单位不是文本的Token,而是视频的“Patch”,即随时间变化的色块,这允许Sora处理任何大小和长宽比的视频,无需预先裁剪或调整。 创新应用 Sora的架构使其能够在训练时使用更多的数据和计算资源,得到更高质量的输出。这种方法不仅避免了视频预处理可能导致的原始构图丢失问题,而且因为能够接收任何视频作为训练输入,Sora的输出不会受到训练输入构图不良的影响。此外,Sora展示了模拟复杂物理现象(如液体动力学)的能力,这得益于其在训练时使用的大量视频数据中包含的物理规则。 研究基础与启示 Sora的开发受到了《Scalable Diffusion Models with Transformers》和《Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution》两篇论文的启发,这些研究来自Google,并在Sora项目启动后不久发表。这些研究提供了Sora架构的理论基础和技术细节,为Sora及未来AI视频生成技术的发展奠定了坚实的基础。 通过结合扩散模型和Transformer模型,Sora不仅在技术上实现了突破,而且为视频制作和AI应用开辟了新的可能性,预示着AI在影视制作、内容创作等领域的未来将更加广阔和深入。 Sora 和之前的 AI 视频生成工具有什么升级 Sora在AI视频生成领域的出现,标志着技术进步的一个重要里程碑。与早期的AI视频生成工具相比,Sora引入了一系列创新和升级,这些改进不仅提高了视频的生成质量,而且极大地扩展了视频创作的可能性。以下是Sora与之前AI视频生成工具的主要升级和优化: 提升生成视频的质量和稳定性 Sora的技术进步主要体现在能够生成高质量视频的能力上。与之前的工具相比,Sora生成的视频可以达到长达60秒的长度,同时支持镜头切换、确保画面中的人物和背景的稳定性,以及实现高画质输出。这些改进意味着使用Sora生成的视频更加逼真,观看体验更佳,为用户提供了更为丰富和动态的视觉内容。 创新的技术架构:Diffusion Transformer模型 Sora之所以能够实现上述优势,归功于其基于Diffusion Transformer模型的创新技术架构。这一架构融合了扩散模型和Transformer模型的优点,使Sora不仅能够生成文本内容,而且能够预测生成所谓的“时空补丁”。这些时空补丁可以理解为视频中的一个小片段,包含了几帧视频内容。这种方法使得Sora在训练过程中不受视频长度和显卡性能的限制,生成过程更加灵活多样,能够组合不同的时空补丁来创造出新的视频内容。 灵活性和多样性的增强 与基于Diffusion模型的Pika或基于Transformer模型的LLM和ChatGPT等工具相比,Sora的技术架构赋予了它更高的灵活性和多样性。Pika在处理视频内容时受到显卡性能的限制,而且主要模式集中在基于图片关键帧的视频扩展或风格转换上。Sora则通过其独特的模型,能够无需拘泥于特定的视频分辨率或长度限制,创造出更加丰富和多变的视频内容。 Sora 的算力要求 在讨论Sora的使用成本和算力要求之前,我们需要明白AI视频生成技术特别是像Sora这样的先进模型,其成本和算力需求是由多种因素决定的。这些因素包括但不限于模型的复杂度、生成内容的分辨率、视频的长度、以及所需的生成质量。以下是对Sora使用成本和算力要求的一个专业化和详细的分析。 成本估算基础 在估算Sora生成60秒视频的成本前,我们参考了现有的AI生成技术的定价模式。例如,DALL-E 3的HD图像生成成本为 $0....

二月 24, 2024 · 2 分钟 · 221 字 · 熊鑫伟,我

向量数据库的学习

今天学习 rust ,发现 rust 是非常适合编写数据库的语言,找到了一个宝藏的项目 tikv,它的 github 项目地址是 https://github.com/tikv/tikv ,是一个非常活跃的项目,但是我今天的主题是 AI 领域的向量数据库,话不多说,我们马上开始吧。 先决条件 0.1 基础知识介绍:了解向量数据库的基本定义及其与传统数据库的区别。 0.2 数据结构基础:学习向量和其他基本数据结构,如何在数据库中表示和操作这些结构。 0.3 线性代数入门:介绍向量运算,包括向量加法、减法和点乘。 0.4 相似性度量:了解如何计算向量间的相似度,例如余弦相似性。 0.5 数据库索引基础:介绍数据库索引的基本概念,特别是在向量数据库中的应用。 0.6 搜索算法初步:学习基础的搜索算法,理解如何在大型数据集中进行有效的搜索。 0.7 应用案例研究:研究向量数据库在不同领域(如推荐系统、图像识别)中的应用。 主要课程 1.1 向量数据库深入:探索向量数据库的高级特性和优势。 1.2 算法探究:深入了解在向量数据库中使用的关键算法,包括索引和搜索算法。 1.3 数据库设计:学习如何设计和实现一个有效的向量数据库架构。 1.4 集成机器学习:了解如何将向量数据库与机器学习模型集成,以提高性能和功能。 1.5 实际案例分析:通过分析实际案例来加深对向量数据库应用的理解。 1.6 高级数学概念:深入学习相关的高级数学概念,如高维空间的向量表示和操作。 1.7 项目实践:开展一个小型项目,实践向量数据库的设计和应用。 1.8 回顾和评估:复习所学内容,并通过评估来测试理解和应用。 0.1 基础知识介绍 向量数据库是一种特殊类型的数据库,它们使用数学向量来表示和存储数据。这与传统数据库有很大的不同,传统数据库通常使用表格和行来组织数据。 向量数据库的定义 💡 向量数据库是如何工作的? 在向量数据库中,数据以向量的形式进行存储和处理,因此需要将原始的非向量型数据转化为向量表示。数据向量化是指将非向量型的数据转换为向量形式的过程。通过数据向量化,实现了在向量数据库中进行高效的相似性计算和查询。此外,向量数据库使用不同的检索算法来加速向量相似性搜索,如 KD-Tree、 VP-Tree、 LSH 以及 倒排索引 等。在实际应用中,需要根据具体场景进行算法的选择和参数的调优,具体选择哪种算法取决于数据集的特征、数据量和查询需求,以及对搜索准确性和效率的要求。 它们是如何使用向量来存储和处理数据的? 向量数据库使用数学向量来存储和处理数据,这与传统的数据库存储方式有显著不同。这里的关键步骤和概念包括: 数据转换为向量 🔄 在向量数据库中,数据首先被转换为数学向量的形式。例如,文本数据可以通过自然语言处理技术转换为向量,图像数据可以通过深度学习模型转化为向量。 向量表示 📈 每个数据项都被表示为一个向量,这个向量在多维空间中有其特定的位置和方向。这些向量通常在高维空间中,每个维度代表数据的一个特征。 相似性搜索 🔍 向量数据库的一个关键功能是相似性搜索。它通过比较数据项的向量之间的距离(例如,使用余弦相似性)来找到相似的项。这对于处理复杂查询和大数据集特别有效。 索引和检索 📚 向量数据库使用高效的索引机制来快速检索和访问数据。这些索引帮助数据库快速定位查询中涉及的向量,从而加快搜索速度。 机器学习集成 🤖 许多向量数据库可以与机器学习模型紧密集成。这允许数据库不仅存储数据,还可以通过模型直接处理和分析数据,从而提供更高级的数据处理和分析能力。 通过使用向量来表示和处理数据,向量数据库能够处理更复杂、更丰富的数据类型,同时提供更快的搜索和检索性能。这使它们在如今的数据驱动世界中变得越来越重要。...

一月 20, 2024 · 5 分钟 · 963 字 · 熊鑫伟,我

AI元年: 2024年的新兴挑战与趋势

2024年1月6日大语言模型分享会 模型的局限: 深度学习 预训练模型 大语言模型 大语言模型的涌现能力: 💡 复杂系统学科里已经对涌现现象做过很久的相关研究。那么,什么是“涌现现象”?当一个复杂系统由很多微小个体构成,这些微小个体凑到一起,相互作用,当数量足够多时,在宏观层面上展现出微观个体无法解释的特殊现象,就可以称之为“涌现现象” Link: 大语言模型进化之谜:涌现现象的挑战与争议_AI_张俊林_InfoQ精选文章 大语言模型的特点趋势的转变: 大语言比人更懂人类的习惯。 使用 RLHF 训练 使用人类习惯的方式交互 大语言模型的发展脉络: 开源模型越来越多,比例越来越大。 预训练模型依旧是非常多的,但是微调的比例越来越高 如何学习大语言模型 模型结构的配置 大语言模型的微调 使用技巧 自己训练模型 不一定要只是单一的数据,也可以是数据的混合(包括自己提供的业务文档或者代码) 训练的数据来源: 💡 数据安全和重复数据的去重,数据筛选很重要(这一步该怎么做?) 当处理和准备用于机器学习模型训练的数据时,确保数据的质量、安全性、和去重非常重要。这里有一些关键步骤和方法,可以帮助你实现这一目标: 质量过滤(Quality Filtering): 确保数据准确无误:移除或修正任何错误的、不完整的或者是不准确的数据。 保证数据的一致性:确保所有的数据遵循同样的格式和标准。 数据去重(Data Deduplication): 识别和移除重复数据:使用算法或者工具来识别完全相同或高度相似的数据项,并将其合并或删除。 对于文本数据,可以使用哈希算法或者基于内容的去重方法。 隐私去除(Privacy Removal): 确保数据中不含有任何个人可识别信息(PII),如姓名、地址、电话号码等。 在某些情况下,可以使用数据脱敏技术,如匿名化或伪匿名化,来保护用户隐私。 分词(Tokenization): 对于文本数据,分词是将连续文本分割成更小单元(如单词、短语或字符)的过程。 分词的方法依赖于特定语言的语法和词汇结构。对于中文,可能需要特定的分词工具,因为中文是一个无空格分隔的语言。 解码器结构 “causal decoder"和"prefix decoder"是两种不同的解码器结构,它们在处理序列数据,尤其是在文本生成任务中扮演着重要角色。下面是这两种解码器的对比: Causal Decoder (因果解码器) 定义和应用: 因果解码器,如在GPT系列模型中所使用的,是一种单向解码器。 它在生成文本时,仅考虑已经生成的或给定的前文(即,它只看到左侧的上下文)。 工作原理: 在处理每个新词时,因果解码器仅使用前面的词作为上下文。 这种模式模拟了人类自然语言的生成方式,即基于已知信息顺序地产生新信息。 用途: 适用于文本生成任务,如故事叙述、自动写作、聊天机器人等。 特点: 保证了生成的文本是连贯的,并且在逻辑上遵循了之前的上下文。 不能回看或考虑未来的词汇或句子结构。 Prefix Decoder (前缀解码器) 定义和应用: 前缀解码器是一种可以同时考虑前文和后文的解码器,类似于BERT中的masked language model(MLM)。 它在处理数据时,可以同时考虑序列中的前缀和后缀信息。 工作原理: 在处理每个词时,前缀解码器使用前面的词和后面的一些占位符或掩码作为上下文。 这种方式使得解码器在生成某个词时,可以考虑到整个序列的结构。 用途: 常用于需要双向上下文理解的任务,如文本填空、句子完善、语言模型训练等。 特点: 能够在生成文本时考虑到更全面的上下文信息。 更适合于理解整个句子或段落的结构和含义。 模型结构的优化 模型结构优化一直以来都是比较fancy的工作,优秀的模型结构设计,可以大大提高模型参数的效率,甚至小模型效果可以超过大模型。本文我们以XLNet、ALBERT、ELECTRA为例进行分析。虽然他们也可以认为是预训练任务优化和模型轻量化方面的工作,但鉴于模型结构创新力度很大,我们还是在模型结构优化这个版块来分析他们。...

一月 14, 2024 · 3 分钟 · 582 字 · Xinwei Xiong, Me

如何安装和使用自主人工智能工具Auto-GPT

前言 🔮 在我的 Slack 工作区中,集成了多个 AI,分别有 ChatGPT 4、ChatGPT 3.5、Claude …… 我们可以通过 Slack 免费并且无限制的和 AI 交互,欢迎大家加入到 Slack,这里是 链接: https://join.slack.com/t/kubecub/shared_invite/zt-1se0k2bae-lkYzz0_T~BYh3rjkvlcUqQ 介绍 很早之前就了解到了 Auto-GPT,作为 GitHub 上近期增长速度最快的项目(没有之一),Auto-GPT 在开源社区可谓是人尽皆知,甚至 star 已经很快就超过 Kubernetes,目前有 125k star。 得益于 Auto-GPT 的出色技术,可以高精度和高效率地自动执行许多任务。 它利用了 GPT-4 强大的自然语言处理功能。 我们甚至可以通过它来实现更多的自动化的工作,比如说前一节 在 Sealos 上开发一款 AI 自动云原生化项目自动上线工具 什么是 AutoGPT 它的 GitHub 地址: GitHub 从本质上讲,Auto-GPT 利用 OpenAI 最新人工智能模型的多功能性与软件和服务进行在线互动,使其能够 “自主 “执行X和Y等任务。但正如我们在大型语言模型方面的学习,这种能力似乎像海洋一样宽广,但却像水坑一样深。 AutoGPT 是一个由人工智能驱动的应用程序,利用 GPT-4 等 LLM 的强大功能自主创建和处理各种工作。通过使用 Auto GPT,组织和个人可以简化报告创作、内容创建和数据分析等流程,以节省时间并减少错误。 AutoGPT 改变了任务自动化的游戏规则,使组织和个人能够专注于其他关键任务,同时将重复和琐碎的工作留给程序。 随着 LLM 的不断发展,我们可以期待看到像 Auto GPT 这样功能越来越强大的软件能够执行越来越复杂的任务。 就人工智能驱动的技术将如何改变我们未来的操作方式和与人工智能系统的互动方式而言,AutoGPT 提供了一个新方向。...

七月 16, 2023 · 2 分钟 · 414 字 · 熊鑫伟,我