2025年6月思考笔记

2025年6月思考笔记 拒绝的边界感 2025 年 06 月 02 日 - 06:28:12 在一家韩式炸鸡店,没想到周围全是中国人。 套餐都是双人份的,我一个人就点了两份双拼。点餐时问的是能不能刷卡,想避免用现金,感觉现金不是很够。 旁边桌有两男两女,和我打招呼,问我是不是中国人,我说是。他们想找我换钱,说自己的现金不够,女生提议可以用微信换。 我说不行。 我没有解释理由,我觉得好像不需要理由,不行就是不行。 他们好像尴尬住了,老板也尴尬到了。他们的尴尬来自预期落空,也源于自己的面子。 一个陌生人拒绝了另一个陌生人的换钱请求,并且选择了不解释。对方感到了尴尬,这不是谁对谁错,而是预期与现实发生冲撞时,面子与自我边界的自然摩擦。 人的尴尬,往往不是来自于他人的冷漠,而是来自于自己对他人回应的期望没有被满足。 #观我/人际 徒步中的真实感:超越逻辑的热爱 2025 年 06 月 02 日 - 08:51:22 这个世界上,有很多无法用逻辑解释的事情,比如说,我为什么来徒步。 之前和朋友聊起,他问我为什么喜欢徒步爬山,明明很累。我当然能用理性去分析:是享受克服困难后的喜悦,是喜欢只有一步一个脚印才能看到的绝美风景,还是享受徒步过程中那种专注当下的状态。这些是给他的答案,但我也自知,这并不足以还原真实的感受。 那什么是给自己的答案?喜欢就是喜欢,热爱就是热爱。可以找到无数理由和借口,也可以用逻辑层层推理,但语言终归是有限的。只有当我真正一个人走在山脊线上,那一刻身体和心灵的感受,才是真的。 很多事情无法用逻辑解释,就像为什么有人会为热爱废寝忘食,为什么有些旋律一入耳就挥之不去。这是一种非理性的热情。科学解释世界,艺术感受世界;逻辑构建世界,而热爱则让这个世界有了温度。 徒步过程中,大部分时间我都在“浪费”——放空自己,感受世界。当看到人群、山景,脑中会自然涌现出一些想法,然后随之发散漂流。我享受这种自然的思考状态,即使被打断也没关系。这种真实感,不是可以伪装或刻意营造的。 我特别喜欢人在徒步里展现出的“真实感”:有些人走着走着就沉默了,有些人忽然开始喃喃自语,有些人眼神发亮地说想通了一个问题,还有些人只是笑着说“今天的风真好”。接受这种真实,让自己自然地流动起来。 #观我/徒步 简单与复杂的辩证 2025 年 06 月 02 日 - 09:27:09 昨天徒步,陆陆续续想了很多关于简单和复杂的平衡。 我现在越来越钟情于“简单”,无论是纯粹的简单,还是抽象后的简洁。 但我发现自己更喜欢和“复杂”的人相处。不是因为简单不好,而是因为复杂的人身上有更多生活留下的真实痕迹——那些挣扎、矛盾、不确定、患得患失和不安全感,这些都是人性最诚实的写照。观察他们,就是在观察人性本身。 还是那个认知路径:简单 -> 复杂 -> 简单。越接近真相和真理,往往越难以用简单的语言说清楚,这是对世界复杂性的尊重。那些轻易给出标准答案的人,如果他们不是上帝,就是傻瓜。老子说“知者不言”,我想,并非不愿意说,而是语言本身终有其局限。 那么,我们还需要追求简单吗?当然。简单是一种生活哲理,“大道至简”。老子用《道德经》极简的语言表达了极深的哲理,乔布斯把复杂的技术用最简洁的用户界面呈现出来。“简单”从不等于“容易”。 这种边界感在哪?又回到了对“平衡”的理解和运用。 真诚的简单:不包装自己,承认并暴露内心的矛盾。我知道“完美”本身就是一种虚假,真实坦诚远比表面的滴水不漏更珍贵。 承认无知:越是了解自己,了解这个世界,就越发现最接近真实的答案往往是“我还不了解”。 这依旧是一种生活哲学,一种简洁的深度美学。 #观我/成长 韩国文化初探:从“恨”到“꾸안꾸” 2025 年 06 月 02 日 - 10:42:06 几个月前,甚至在有自我意识以来的很长一段时间里,我都受到互联网上一些猎奇内容的影响,对韩国这个国家并无好感。这背后最根本的原因,或许是民族认同与文化主权的焦虑感。包括来济州岛之前,也觉得这辈子来走一次偶来小路就足够了。 当我们看到韩国强调“本国文化独立性”时,在他们国内是民族自豪,而在我们看来,则可能触发一种“丧失文化权威感”的集体焦虑。 然而,在韩国接触到的人,给我的感觉和去过的其他国家一样——人性是相通的,只是社会和制度塑造了人们性格上的差异。我观察到一些有趣的哲学文化内核:...

六月 30, 2025 · 16 分钟 · 3255 字 · Xinwei Xiong, Me

2025年5月思考笔记

2025年5月思考笔记 AI 时代独立开发:前端是价值交付的主战场 2025 年 05 月01 日 - 10:22:06 在 AI 时代,独立开发的战场正在向前端转移。 后端被简化:AI 模型将核心服务变为通用能力,后端的技术壁垒降低。SaaS、PaaS 提供商封装了大量基础能力,开发者可以直接调用。 前端成为价值交付的关键:前端是离用户最近的地方,更容易聚焦 MVP 和单人产品闭环。用 Next.js / Tailwind / Firebase / Vercel 这一套技术栈,就能完成全栈交付,快速验证“功能 → 价值 → 增长”的链条。 从“构建”到“集成”:数据库、权限、存储、模型调用都在平台化(如 Supabase、LangChain、Replicate),独立开发者无需从 0 写后端,只需“集成”即可。 AI 将“智能”从后端解耦,前端才是离用户最近、变化最大、价值最集中的战场。 #格物/独立开发 宁愿忍受熟悉的痛苦,不愿拥抱未知 2025 年 05 月03 日 - 16:35:33 出于对未知的恐惧,人们更愿意忍受熟悉的痛苦。 人性中存在一种对熟悉事物的偏好,即便这种偏好并非最优选择。已知的痛苦,似乎总让人感觉更可控,更知道如何去面对。 #观我/心理机制 知人者智,自知者明 2025 年 05 月03 日 - 16:45:22 大部分人都在以自己的想法和观点衡量这个世界,我们赋予一件事的意义,最终决定了我们对它的感受。 这正是价值观如何塑造现实的体现。同样是工作,有人乐在其中,有人视之为苦役。 可以试着问自己一个问题:如果不再有“我恨工作”的想法,我会成为什么样的人? 很多人从未如此反思。通过元认知,我们可以理解情绪本身的存在。生气时,不妨思考生气的原因和本质,客观地记录下来,问题或许就迎刃而解了。 #观我/自我认知 大脑为了生存,心灵为了幸福 2025 年 05 月03 日 - 16:56:10...

五月 31, 2025 · 7 分钟 · 1386 字 · Xinwei Xiong, Me

2025年4月思考笔记

2025年4月思考笔记 深圳十日:友谊的温度 2025 年 04 月 02 日 - 10:41:57 在深圳的十天,也是在 Archer 家的十天,Archer 经常请吃饭,带我们品尝美食,还有小美姐和 Sun 的款待。这次深圳之行让我非常感动,他们的友谊深深地温暖了我。 #观我/人际感悟 心有所栖,爱之始于原谅 2025 年 04 月 02 日 - 14:47:54 心若没有栖息的地方,走到哪里都是在流浪! 但只有你学会原谅,你才能去爱! #一闪 战争棱镜:人性的善恶边界 2025 年 04 月 03 日 - 14:19:47 在俄乌战场上,有为俄罗斯而战的中国人,也有为乌克兰而战的中国人,他们背后是不同的立场和价值观。 战争中的善恶很复杂,人性也充满矛盾。有人在战争中变得残忍,无恶不作;也有人,哪怕命悬一线,仍心怀善意。极端环境就像一面放大镜,让真实的人性暴露无遗。 有人说人天生善良,是环境把人逼坏了;也有人说人本性自私,战争只是将其彻底激发。善恶并非绝对,对错也无从平衡,而普通人正是在这种不平衡的人性挣扎中,在夹缝中求生。 和平真的很珍贵,若没有战争这面镜子,我们或许会忘记,人性可以有多坏,也可以有多好。 #知世/人性观察 代码的生命周期与价值 2025 年 04 月 04 日 - 09:08:11 已经跑在生产环境、经过验证的代码,其价值远高于未经测试的代码。 软件和人一样,都有自己的生命周期。我们的任务就是维护它,直到生命周期结束,或是维护成本过高而选择重构为止。 #格物/软件工程 MCP 模式:打造一体化的开发工作流 2025 年 04 月 04 日 - 18:49:25 MCP(Model-Centric Programming)模式的核心在于功能一体化。例如,在 Cursor 中,我们可以轻松获取 API 文档、分析查询数据库,甚至在修改完代码后,通过聊天自动提交 PR 到 GitHub。...

四月 30, 2025 · 11 分钟 · 2280 字 · Xinwei Xiong, Me

2025年3月思考笔记

2025年3月思考笔记 DeepSeek R1 论文的设计与工程启示 2025 年 03 月 01 日 - 13:11:41工程思考 架构上的工程意义优于算法意义,为工程实践提供了许多参考价值。 设计思考 强大的模型蒸馏可以得到非常不错的效果。 要超越智能的界限,仍需强大的基础模型和更大规模的强化学习。 推理大模型倾向于在回答问题前,先将问题分解为更小的步骤。 仅靠强化学习,不经监督微调,大模型也能涌现出强大的推理技能。 为模型提供一些参考性的思考笔记也很重要。监督微调能在一定程度上解决输出的思考过程可读性差、偶尔中英混杂的问题。 最小干预模板能指导模型自由探索不同的解题思路,不限定思考方法,可能会带来很多惊喜。 简单直接的奖励方式:准确度奖励(数学问题的回答)+ 格式奖励(易于理解的思维链)。将“思考过程”放在特定标签(如 <think>...</think>)内,答案放在 <answer>...</answer> 内,无需额外训练一个独立的奖励模型,就像固定的高考筛选机制一样,简单有效。 R1 同时公开了基于 R1 蒸馏的六个小模型,这些小模型也具备了一定的推理能力,在某些场景下甚至超过未经蒸馏直接强化学习的小模型,这为未来的模型应用场景提供了一些思考。知识蒸馏结合强化学习,能让小模型在许多应用场景下产生出乎意料的效果。 #格物/AI模型解析 AI 的多模态与跨领域融合趋势 2025 年 03 月 01 日 - 16:30:25 大模型平台 + 领域微调 + 知识蒸馏,未来的微调趋势可能是领域监督微调结合参数高效微调(如 LoRA)。 从文本领域走向多模态是一种趋势,人机交互愈发受到重视,大批交互工具(如 Cursor)正在解决这个问题。扩展至语音、视频等多模态也是必然趋势,AI 的终极形态是全感官 AI。 跨领域知识整合也很重要,许多复杂的现实问题依赖于不同专业领域知识的融会贯通。 模块化趋势或许会借鉴专家混合(Mixture-of-Experts, MOE)等架构,让不同模块专攻不同任务,从而提升整体效率和表现。这种方式也可以和不同领域的知识链接或结合。 对于小模型而言,蒸馏的效果通常比直接强化学习更好,也更节约成本。蒸馏技术能将大模型的能力有效转移到结构更小、计算效率更高的小模型上,使它们在实际应用中也能达到较高的性能水平。 #格物/AI技术趋势 Web3 核心:智能合约与数字货币周期 2025 年 03 月 01 日 - 23:10:11 区块链衍生出许多技术,但就 Web3 发展而言,核心是智能合约。智能合约存储在区块链上,充当自动化的业务逻辑,一旦满足条件即可执行。Web3 的形态可以理解为社区驱动、自给自足的经济形态。 数字货币的成长周期分析:创建 -> 成长 -> 投机 -> 泡沫 -> 调整。...

三月 31, 2025 · 7 分钟 · 1283 字 · Xinwei Xiong, Me

2024 年度回顾

开篇与自我定位 年度序言与背景 📅 Hi! 2025 ~ TIP: 这篇文章的信息密度很高,并且带有强烈的主观,我尽可能的尝试少一些观点,多一些经验的描述,包括自己旅居过程中的经验,经历过的一些事情反思,做产品的途中的一些经验,经验是宝贵的,希望留给你触动和思考的空间越广,TOP 中选取自己感兴趣的阅读即可。 曼谷 → 尼泊尔/加德满都 的飞机上,其实心情是豁达的,从小到大做的车太多了,喜欢在车上思考一些问题。一切都是那么自然,前段时间明星王星泰国被骗的事件, 西藏/尼泊尔 地震事件。一个月前曼谷飞首尔航班事件,再到之前 加德满都 -> 博卡拉 的飞机频频失事,喜马拉雅山频繁出现意外,再去用理智和数据去推测自己的后半生的成长曲线,我是怎么也没办法说服自己就这样让自己莫名其妙的离开这个世界。反转一个场景,”世界都这么多突然了,假设我们每一天都会是最后一天,假设我当前乘坐的航班✈️也没办法顺利到达终点,最后一天,你有什么遗憾吗?” 我已经很快乐的度过每一天了,我已经在让每一天都不留遗憾的度过了。哪怕很平常的一天,走在草坪上,看看小朋友和小狗嬉闹的身影我觉得已经很幸福了。最后一天真的那么重要吗,重要的是当下,做自己想做的事情,为自己想要实现的愿望付出自己的时间、经历和生命。是此时此刻,比如说你我在思考这个问题的瞬间,感受到的乐趣,我把每一天都当做最后一天去生活,去做自己想做的事情,去尽可能的创造,为世界创造一些幸福和价值。对于一些自己无能为力,不可控的问题,交给佛祖吧 ~ !https://cdnv2.ruguoapp.com/Fmx1eiSFwVftgjXDxPT9RjdFz2X1v3.jpg?imageMogr2/auto-orient/heic-exif/1/format/jpeg/thumbnail/!120x120r/gravity/Center/crop/!120x120a0a0 又一年过去了, 上一年在维多利亚港跨年写年度小结的场景还历历在目,是什么能力可以在短短几个小时完成一篇年度小结? 结合 AI 的能力快速完成的年度小结就像是 KPI 一样 😅。 去年就已经构思了今年的我年度总结可能会完成那哪些梦想,果然还是不能有太多的期待,结果现在回顾起来全部都是不及格,于是今年就不写年度小结了,反思一下今年的自己为什么是这样的转变。 好我喜欢写随笔,因为自己定义也是一个流浪青年,这篇文章我也会用随笔去写。 写之前想过一些定位,去年在维多利亚港看跨年烟花的时候,2023 跨年夜,我给自己的博客标了一句话: 我叫 Xinwei(bear) Xiong 🤖。我的忠诚是对冒险的忠诚☀️。 我是一个开源的极度爱好者Ⓜ️。我有一个大梦想,并会在明年实现它。 如果是那时候的我,肯定想的是今年如何去写去过哪些地方,实现了哪些的梦想。 因为日常也记录了非常多的随笔,以及当时的思考如何形成之前的我,以及现在的我。当时当下有更想写的一些东西,我很相信今年也尤其喜欢 transformation 这个词,所以这篇博客的核心,我想从 transform 这个词来深度的剖析,如果我的博客和文章是一款好的产品,投入了我大量的经历以及经验的结晶,禁得住市场和监管的考验,最终呈现给你的这款产品,面对你(与众不同且独一无二)的人来说,如何切切实实的感受到这种 transformation。 来之前看过 Reimu 的文章,那就从 Reimu 的文章开始说起,引入 transform 。 Reimu 在 2019 年大学毕业那会写过一篇万字长文《毕业后的一些思考》。我分别在大三大四读过一遍, 两次都是有缘刷到,很高兴第二次我认识了 Reimu。这篇文章讲的是 Reimu 在大学后的大量的思考以及信息攫取后输出,很有批判性思维。它确确实实让两次观看的我有了两次深刻的差异化感受,我理解这个过程就叫做 transformation,是,是我第一次阅读到第二次阅读感受的 transformation, 是我 看着 Reimu 的 transformation ,也是一个以时间为维度,两个普通平凡技术从业者时隔五年思想的 transformation。...

二月 12, 2025 · 11 分钟 · 2137 字 · Xinwei Xiong, Me

这是一篇我职业生涯总结的 OpenIM 故障排查指南

如果你想在寻找一篇针对 OpenIM 并且准备好具体的问题想来这里找到答案的话。那么很遗憾的告诉你,这篇并不是记录问题和编写答案的,这篇是读者经过开发和业务实战中以 OpenIM 为例总结出来的故障排查的方法,以及调试的技巧。如果你想从我这里学习到故障的排查以及问题定位的经验,那么请你继续读下去。 我将会从工作中经常出现的一些情况总结成类型来分析。 一个小小的玩笑,或许我比较逆人性,其他人都很害怕遇到 bug 的时候,我倒是对出现 bug 比较兴奋,我们后期读代码的时间和维护代码的时间其实是远远高于写代码的时间的。所以面对 bug, 我们的思考和总结尤其是非常重要,尤其是帮我们在写代码的时候也思考,代码的扩展性,和错误处理,是否可以禁得起考验 ~ 故障排查的基本概念 故障排查,我主要是分为几种情况,分别是,编译的故障排查,启动的故障排查,以及服务运行故障排查。这几种情况的故障排查思路都是大同小异的。 首先,我们需要发现问题,然后定位问题。我们可能需要经过多轮分析排查才能定位到问题的根因,最后去解决问题。排障流程如下图所示: 开始 | V 发现问题 ------> 记录问题的症状和相关情况 | V 定位问题 | V 进行初步分析 --------> 确定可能的原因 | | V | 是否需要深入分析?-----> 是 ------> 进行深入分析 | | | | | V | | 确定具体原因 | | | | | V | <-------- 是否已找到根本原因? | | | 否 | V 是否解决了问题? | 是 ------> 记录解决过程和解决方案 | | 否 ------> 调整策略或寻求帮助 | V 结束 如果想排查问题并解决问题,你还需要具备以下两个基本能力:...

四月 16, 2024 · 8 分钟 · 1504 字 · 熊鑫伟,我

Sora Ease 指南:开发者掌握 Sora AI 的全面指南

Sora 中文的提示词 | 调教指南。各种场景使用指南。学习怎么让它听你的话。兼顾了 Sora 的多场景应用。 这篇文章来源于 https://github.com/SoraEase/sora-prompt-zh 开源项目,SoraEase 希望为 sora 相关的开发者提供自动化,便捷,快速上手的工具和指南。 Sora | 索拉 是一个AI模型,可以从OpenAI的文本指令中创建逼真和富有想象力的场景。OpenAI正在教AI理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界交互的问题。 如果你是 sora 的学习者,希望获取到 sora 的最新的咨询和相关的开发项目,以及 sora 相关的开源项目,这里 awesome-sora 提供了 sora 相关的Sora 中文指南,指令指南,应用开发指南,精选资源清单,Sora 开发者精选工具框架。 索拉可提供以下功能: 文本到视频 动画 扩展生成的视频 视频到视频编辑 连接视频 图像生成(文本到图像) 在这个存储库中,你会发现各种可以和索拉一起使用的提示。我们根据视频的风格分配了不同的标签,让你可以根据标签快速找到提示示例(Prompt)和生成的视频,并根据需要进行修改。 虽然索拉尚未正式发布,但我们正在全面收集提示,以帮助你快速开始使用索拉生成你想要的视频。 提示词 官方提示词生成器 视频生成提示 官方视频生成提示 点击查看更多示例 一位时尚女性穿着一件黑色皮夹克,一条长长的红色裙子和黑色靴子,手拿一个黑色的手提包,在热闹的东京街道上行走。周围充满了温暖的霓虹灯和动态的城市标识。她戴着太阳镜和红色口红,自信而随意地行走。街道潮湿而反光,形成了五彩灯光的镜面效果。许多行人在周围走动。 生成视频链接 几只巨大的长毛猛犸象漫步在积雪覆盖的草地上,它们的长毛在微风中轻轻飘动,远处是积雪覆盖的树木和戏剧性的雪山,午后的光线和稀薄的云彩以及高高悬挂的太阳形成了温暖的光芒。低角度的摄像视角令人惊叹,捕捉到了这些大型毛茸茸的哺乳动物和美丽的摄影,景深感非常强烈。 生成视频链接 一个电影预告片,讲述了一位30岁的太空人的冒险故事,他戴着一顶红色的羊毛编织头盔,蓝天,盐沙漠,电影风格,35mm胶片拍摄,色彩生动。 生成视频链接 无人机俯视着波涛汹涌的大苏尔加雷角海滩的崎岖悬崖。蓝色的海水拍打着,形成了白色的波浪,而夕阳的金光照亮了岩石海岸。远处有一座灯塔的小岛,悬崖边覆盖着绿色的灌木。从道路到海滩的陡峭下滑是一个戏剧性的壮举,悬崖边突出在海面上。这是一个捕捉到海岸的原始美和太平洋海岸公路崎岖风景的景色。 生成视频链接 动画场景展示了一个近距离的短毛怪兽跪在一个正在融化的红色蜡烛旁边。艺术风格是3D和逼真的,重点放在光线和纹理上。画面的情绪是惊奇和好奇,怪兽睁着大眼睛,张着大嘴盯着火焰看。它的姿势和表情传达出一种天真和俏皮的感觉,好像它是第一次探索周围的世界一样。温暖色调和戏剧性的光线进一步增强了图像的舒适氛围。 生成视频链接 一个华丽的纸艺世界,一个丰富多彩的珊瑚礁,到处都是色彩缤纷的鱼类和海洋生物。 生成视频链接 这个特写镜头展示了维多利亚皇冠鸽子引人注目的蓝色羽毛和红色胸膛。它的羽冠由精致的蕾丝羽毛制成,而它的眼睛是醒目的红色。鸟的头微微倾斜,给人一种威严和威严的印象。背景模糊,突出了鸟的引人注目的外观。 生成视频链接 两艘海盗船激战的写实特写视频,它们在一杯咖啡中航行。 生成视频链接 一位20岁左右的年轻男子坐在天空中的一块云朵上,读着一本书。 生成视频链接 加利福尼亚淘金热的历史影像。 生成视频链接 一个玻璃球的特写视角,里面有一个有竹林的禅园,一个小矮人正在禅园里耙平沙子并在沙子上创造图案。 生成视频链接 在魔幻的黄昏中,一个24岁女子的眼睛在眨眼,站在马拉喀什,70毫米胶片拍摄的电影,景深,鲜艳的色彩,电影感觉的摄影。 生成视频链接 一只卡通袋鼠在迪斯科舞动。 生成视频链接 一个美丽的自制视频,展示了2056年尼日利亚拉各斯的人们。使用手机摄像头拍摄。...

三月 14, 2024 · 2 分钟 · 253 字 · 熊鑫伟,我

Sora 技术讨论以及普通人和开发者如何利用 Sora 改变世界

Sora !!! 近日,互联网上掀起了一阵关于Sora的热潮。作为OpenAI最新推出的技术,Sora赋予了文字生成视频的魔力,其展示的效果令人印象深刻。 在当前,短视频的吸引力已远超过传统的小说和图像漫画。因此,Sora的问世,可能会在视频制作领域引发一场革命。 Sora的魅力在于,它能够基于文本描述生成长达60秒的视频内容,这些内容包括了精细的场景设置、栩栩如生的角色表情,以及流畅的镜头转换。 这项技术能够塑造出多元化的角色,实现特定的动作,并且在主题和背景方面做到与描述高度一致。Sora不仅准确地理解用户的指令,还能深刻洞察这些元素在现实世界中应有的呈现方式。 Sora展现了对语言的深刻洞察力,能够精确捕捉用户的意图,创造出既生动又情感充沛的视频内容。它甚至能在同一视频中呈现多个场景,同时保证角色的连贯性和视觉风格的统一。 然而,Sora并非完美无瑕。在模拟复杂场景下的物理效应,以及理解特定因果关系方面,它仍有待提升。例如,视频中的角色可能会咬一口饼干,却未能在饼干上留下明显的痕迹。 此外,Sora在处理空间细节,如分辨方向,或是描述一段时间内的具体事件,如摄影机的移动轨迹时,也可能显示出一定的局限性。 简单来说,简单来说,Sora 是一种能用文本生成最长 60 秒视频的技术,也可以用来生成图片,因为图片本质上是一帧的视频。 这篇文章,将会从 Sora 的架构,然后到 Sora 的生态,以及最后普通人或者开发者如何利用或者使用 Sora ,为这个 AI 浪潮做准备 ~ Sora的架构与创新 Sora代表了在AI视频生成技术中的一次重大创新,它在架构上与之前的Runway及Stable Diffusion等基于扩散模型的系统有着明显的区别。核心之处在于Sora采用了Diffusion Transformer模型,这是一个结合了扩散模型和Transformer模型的先进架构,为视频生成带来了前所未有的灵活性和质量提升。 架构比较 Runway/Stable Diffusion:这些系统基于扩散模型,通过逐步向图片添加噪点,再逐步去除噪点的方式生成清晰图片。这一过程虽然能够生成高质量的图像,但在视频生成上存在限制,尤其是在处理长视频和维持视频一致性方面。 Sora:Sora利用Diffusion Transformer模型,通过Transformer的编码器-解码器架构处理含噪点的输入图像,并预测出更清晰的图像版本。这不仅提高了图像处理的效率,而且在视频生成上实现了显著的进步。Sora的创新在于它处理的基本单位不是文本的Token,而是视频的“Patch”,即随时间变化的色块,这允许Sora处理任何大小和长宽比的视频,无需预先裁剪或调整。 创新应用 Sora的架构使其能够在训练时使用更多的数据和计算资源,得到更高质量的输出。这种方法不仅避免了视频预处理可能导致的原始构图丢失问题,而且因为能够接收任何视频作为训练输入,Sora的输出不会受到训练输入构图不良的影响。此外,Sora展示了模拟复杂物理现象(如液体动力学)的能力,这得益于其在训练时使用的大量视频数据中包含的物理规则。 研究基础与启示 Sora的开发受到了《Scalable Diffusion Models with Transformers》和《Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution》两篇论文的启发,这些研究来自Google,并在Sora项目启动后不久发表。这些研究提供了Sora架构的理论基础和技术细节,为Sora及未来AI视频生成技术的发展奠定了坚实的基础。 通过结合扩散模型和Transformer模型,Sora不仅在技术上实现了突破,而且为视频制作和AI应用开辟了新的可能性,预示着AI在影视制作、内容创作等领域的未来将更加广阔和深入。 Sora 和之前的 AI 视频生成工具有什么升级 Sora在AI视频生成领域的出现,标志着技术进步的一个重要里程碑。与早期的AI视频生成工具相比,Sora引入了一系列创新和升级,这些改进不仅提高了视频的生成质量,而且极大地扩展了视频创作的可能性。以下是Sora与之前AI视频生成工具的主要升级和优化: 提升生成视频的质量和稳定性 Sora的技术进步主要体现在能够生成高质量视频的能力上。与之前的工具相比,Sora生成的视频可以达到长达60秒的长度,同时支持镜头切换、确保画面中的人物和背景的稳定性,以及实现高画质输出。这些改进意味着使用Sora生成的视频更加逼真,观看体验更佳,为用户提供了更为丰富和动态的视觉内容。 创新的技术架构:Diffusion Transformer模型 Sora之所以能够实现上述优势,归功于其基于Diffusion Transformer模型的创新技术架构。这一架构融合了扩散模型和Transformer模型的优点,使Sora不仅能够生成文本内容,而且能够预测生成所谓的“时空补丁”。这些时空补丁可以理解为视频中的一个小片段,包含了几帧视频内容。这种方法使得Sora在训练过程中不受视频长度和显卡性能的限制,生成过程更加灵活多样,能够组合不同的时空补丁来创造出新的视频内容。 灵活性和多样性的增强 与基于Diffusion模型的Pika或基于Transformer模型的LLM和ChatGPT等工具相比,Sora的技术架构赋予了它更高的灵活性和多样性。Pika在处理视频内容时受到显卡性能的限制,而且主要模式集中在基于图片关键帧的视频扩展或风格转换上。Sora则通过其独特的模型,能够无需拘泥于特定的视频分辨率或长度限制,创造出更加丰富和多变的视频内容。 Sora 的算力要求 在讨论Sora的使用成本和算力要求之前,我们需要明白AI视频生成技术特别是像Sora这样的先进模型,其成本和算力需求是由多种因素决定的。这些因素包括但不限于模型的复杂度、生成内容的分辨率、视频的长度、以及所需的生成质量。以下是对Sora使用成本和算力要求的一个专业化和详细的分析。 成本估算基础 在估算Sora生成60秒视频的成本前,我们参考了现有的AI生成技术的定价模式。例如,DALL-E 3的HD图像生成成本为 $0....

二月 24, 2024 · 2 分钟 · 221 字 · 熊鑫伟,我

Go 源码里的这些 go: 指令 && go 自动化工具

Go 源码里的这些 go: 指令 && go 自动化工具 开发人员有很强的自动化重复性任务的倾向,这也适用于编写代码。 样板代码可能包括设置基本文件结构、初始化变量、定义函数或导入库或模块等操作。 在某些情况下,包提供样板代码作为开发人员构建的起点,通常是在代码行为配置之后生成。 尽管样板代码对于应用程序功能可能是必要的和有价值的,但它也可能是浪费和冗余的。出于这个原因,有许多工具可以最小化样板代码。 go generate 是Go编程语言的命令行工具,允许自动生成代码。您可以使用 go generate 为您的项目生成易于修改的特定代码,使该工具在减少样板文件方面功能强大。 go generate 这个命令通常用于在编译前自动生成代码。它可以用来创建那些重复性高或者模式化的代码,从而节省时间和减少错误。想想看,这在哪些情况下会特别有用呢?🤔 比如说下面有一个简单的例子,在代码中: //go:generate echo Hello, cubxxw ! 在这个例子中,当我们运行 go generate 命令时,它将执行注释中指定的命令。在这个例子里,它会打印出 “Hello, cubxxw !"。 因此,元编程(metaprogramming)的主题是一个开发和研究的热门领域,可以追溯到 1960 年代的 Lisp。元编程中一个特别有用的领域是代码生成(code-generation)。支持宏的语言内置了此功能;其他语言扩展了现有功能以支持这一点。 go:generate 在我们之前的讨论中,我们已经介绍了 “Go Generate” 命令的基础知识。现在,我们将深入探讨一些更具体的用例和实践技巧。🚀 让我们从一些术语开始。go generate 工作方式主要由三个参与者之间协调进行的: Generator:是由 go generate 调用的程序或脚本。在任何给定的项目中,可以调用多个生成器,可以多次调用单个生成器等。 Magic comments:是 .go 文件中以特殊方式格式化的注释,用于指定调用哪个生成器以及如何调用。任何以文本 //go:generate 行开头的注释都是合法的。 go generate : 是 Go 工具,它读取 Go 源文件、查找和解析 magic comments 并运行指定的生成器。 需要强调的是,以上是 Go 为代码生成提供的自动化的全部范围。对于其他任何事情,开发人员可以自由使用适合他们的任何工作流程。例如,go generate 应该始终由开发人员手动运行; 它永远不会自动调用(比如不会作为 go build 的一部分)。此外,由于我们通常使用 Go 将二进制文件发送给用户或执行环境,因此很容易理解 go generate 仅在开发期间运行(可能就在运行 go build 之前);Go 程序的用户不会知道哪部分代码是生成的以及如何生成的。(实际上,很多时候会在生成的文件开头加上注释,这是生成的,请别手动修改。)...

一月 25, 2024 · 5 分钟 · 973 字 · 熊鑫伟,我

向量数据库的学习

今天学习 rust ,发现 rust 是非常适合编写数据库的语言,找到了一个宝藏的项目 tikv,它的 github 项目地址是 https://github.com/tikv/tikv ,是一个非常活跃的项目,但是我今天的主题是 AI 领域的向量数据库,话不多说,我们马上开始吧。 先决条件 0.1 基础知识介绍:了解向量数据库的基本定义及其与传统数据库的区别。 0.2 数据结构基础:学习向量和其他基本数据结构,如何在数据库中表示和操作这些结构。 0.3 线性代数入门:介绍向量运算,包括向量加法、减法和点乘。 0.4 相似性度量:了解如何计算向量间的相似度,例如余弦相似性。 0.5 数据库索引基础:介绍数据库索引的基本概念,特别是在向量数据库中的应用。 0.6 搜索算法初步:学习基础的搜索算法,理解如何在大型数据集中进行有效的搜索。 0.7 应用案例研究:研究向量数据库在不同领域(如推荐系统、图像识别)中的应用。 主要课程 1.1 向量数据库深入:探索向量数据库的高级特性和优势。 1.2 算法探究:深入了解在向量数据库中使用的关键算法,包括索引和搜索算法。 1.3 数据库设计:学习如何设计和实现一个有效的向量数据库架构。 1.4 集成机器学习:了解如何将向量数据库与机器学习模型集成,以提高性能和功能。 1.5 实际案例分析:通过分析实际案例来加深对向量数据库应用的理解。 1.6 高级数学概念:深入学习相关的高级数学概念,如高维空间的向量表示和操作。 1.7 项目实践:开展一个小型项目,实践向量数据库的设计和应用。 1.8 回顾和评估:复习所学内容,并通过评估来测试理解和应用。 0.1 基础知识介绍 向量数据库是一种特殊类型的数据库,它们使用数学向量来表示和存储数据。这与传统数据库有很大的不同,传统数据库通常使用表格和行来组织数据。 向量数据库的定义 💡 向量数据库是如何工作的? 在向量数据库中,数据以向量的形式进行存储和处理,因此需要将原始的非向量型数据转化为向量表示。数据向量化是指将非向量型的数据转换为向量形式的过程。通过数据向量化,实现了在向量数据库中进行高效的相似性计算和查询。此外,向量数据库使用不同的检索算法来加速向量相似性搜索,如 KD-Tree、 VP-Tree、 LSH 以及 倒排索引 等。在实际应用中,需要根据具体场景进行算法的选择和参数的调优,具体选择哪种算法取决于数据集的特征、数据量和查询需求,以及对搜索准确性和效率的要求。 它们是如何使用向量来存储和处理数据的? 向量数据库使用数学向量来存储和处理数据,这与传统的数据库存储方式有显著不同。这里的关键步骤和概念包括: 数据转换为向量 🔄 在向量数据库中,数据首先被转换为数学向量的形式。例如,文本数据可以通过自然语言处理技术转换为向量,图像数据可以通过深度学习模型转化为向量。 向量表示 📈 每个数据项都被表示为一个向量,这个向量在多维空间中有其特定的位置和方向。这些向量通常在高维空间中,每个维度代表数据的一个特征。 相似性搜索 🔍 向量数据库的一个关键功能是相似性搜索。它通过比较数据项的向量之间的距离(例如,使用余弦相似性)来找到相似的项。这对于处理复杂查询和大数据集特别有效。 索引和检索 📚 向量数据库使用高效的索引机制来快速检索和访问数据。这些索引帮助数据库快速定位查询中涉及的向量,从而加快搜索速度。 机器学习集成 🤖 许多向量数据库可以与机器学习模型紧密集成。这允许数据库不仅存储数据,还可以通过模型直接处理和分析数据,从而提供更高级的数据处理和分析能力。 通过使用向量来表示和处理数据,向量数据库能够处理更复杂、更丰富的数据类型,同时提供更快的搜索和检索性能。这使它们在如今的数据驱动世界中变得越来越重要。...

一月 20, 2024 · 5 分钟 · 963 字 · 熊鑫伟,我