2024 年度回顾

开篇与自我定位 年度序言与背景 📅 Hi! 2025 ~ TIP: 这篇文章的信息密度很高,并且带有强烈的主观,我尽可能的尝试少一些观点,多一些经验的描述,包括自己旅居过程中的经验,经历过的一些事情反思,做产品的途中的一些经验,经验是宝贵的,希望留给你触动和思考的空间越广,TOP 中选取自己感兴趣的阅读即可。 曼谷 → 尼泊尔/加德满都 的飞机上,其实心情是豁达的,从小到大做的车太多了,喜欢在车上思考一些问题。一切都是那么自然,前段时间明星王星泰国被骗的事件, 西藏/尼泊尔 地震事件。一个月前曼谷飞首尔航班事件,再到之前 加德满都 -> 博卡拉 的飞机频频失事,喜马拉雅山频繁出现意外,再去用理智和数据去推测自己的后半生的成长曲线,我是怎么也没办法说服自己就这样让自己莫名其妙的离开这个世界。反转一个场景,”世界都这么多突然了,假设我们每一天都会是最后一天,假设我当前乘坐的航班✈️也没办法顺利到达终点,最后一天,你有什么遗憾吗?” 我已经很快乐的度过每一天了,我已经在让每一天都不留遗憾的度过了。哪怕很平常的一天,走在草坪上,看看小朋友和小狗嬉闹的身影我觉得已经很幸福了。最后一天真的那么重要吗,重要的是当下,做自己想做的事情,为自己想要实现的愿望付出自己的时间、经历和生命。是此时此刻,比如说你我在思考这个问题的瞬间,感受到的乐趣,我把每一天都当做最后一天去生活,去做自己想做的事情,去尽可能的创造,为世界创造一些幸福和价值。对于一些自己无能为力,不可控的问题,交给佛祖吧 ~ !https://cdnv2.ruguoapp.com/Fmx1eiSFwVftgjXDxPT9RjdFz2X1v3.jpg?imageMogr2/auto-orient/heic-exif/1/format/jpeg/thumbnail/!120x120r/gravity/Center/crop/!120x120a0a0 又一年过去了, 上一年在维多利亚港跨年写年度小结的场景还历历在目,是什么能力可以在短短几个小时完成一篇年度小结? 结合 AI 的能力快速完成的年度小结就像是 KPI 一样 😅。 去年就已经构思了今年的我年度总结可能会完成那哪些梦想,果然还是不能有太多的期待,结果现在回顾起来全部都是不及格,于是今年就不写年度小结了,反思一下今年的自己为什么是这样的转变。 好我喜欢写随笔,因为自己定义也是一个流浪青年,这篇文章我也会用随笔去写。 写之前想过一些定位,去年在维多利亚港看跨年烟花的时候,2023 跨年夜,我给自己的博客标了一句话: 我叫 Xinwei(bear) Xiong 🤖。我的忠诚是对冒险的忠诚☀️。 我是一个开源的极度爱好者Ⓜ️。我有一个大梦想,并会在明年实现它。 如果是那时候的我,肯定想的是今年如何去写去过哪些地方,实现了哪些的梦想。 因为日常也记录了非常多的随笔,以及当时的思考如何形成之前的我,以及现在的我。当时当下有更想写的一些东西,我很相信今年也尤其喜欢 transformation 这个词,所以这篇博客的核心,我想从 transform 这个词来深度的剖析,如果我的博客和文章是一款好的产品,投入了我大量的经历以及经验的结晶,禁得住市场和监管的考验,最终呈现给你的这款产品,面对你(与众不同且独一无二)的人来说,如何切切实实的感受到这种 transformation。 来之前看过 Reimu 的文章,那就从 Reimu 的文章开始说起,引入 transform 。 Reimu 在 2019 年大学毕业那会写过一篇万字长文《毕业后的一些思考》。我分别在大三大四读过一遍, 两次都是有缘刷到,很高兴第二次我认识了 Reimu。这篇文章讲的是 Reimu 在大学后的大量的思考以及信息攫取后输出,很有批判性思维。它确确实实让两次观看的我有了两次深刻的差异化感受,我理解这个过程就叫做 transformation,是,是我第一次阅读到第二次阅读感受的 transformation, 是我 看着 Reimu 的 transformation ,也是一个以时间为维度,两个普通平凡技术从业者时隔五年思想的 transformation。...

February 12, 2025 · 11 分钟 · 2136 字 · Xinwei Xiong, Me

Kubernetes 资源与学习路径总结

需求 👀 与其重要的,是对 kubernetes 资源的收集。 ⚠️ 所有资源均是采用外链连接,书本资源或不放连接,其他均为自己感受和总结。如有侵权请联系删除。 CloudNative 学习途径 关于kubernetes: 官网 GitHub 社区维护的 kubernetes 学习资源合集 Kubernetes源码必读的 Google 大规模集群管理器 Borg etcd:从应用场景到实现原理的全方位解读 和 ZooKeeper典型应用场景一览 关于 CNCF 的贡献,你需要签署 CLA Kubernetes CLA 的签署流程 官方开发者向导 markdown 文件 Kubernetes ownes 所有者md介绍 自己写作的一些资源: 云原生学习 golang 学习 都收纳到 awesome 仓库中,覆盖 📚 菜鸟成长手册🚀 CS系列 、云原生系列、区块链系列、web3系列🔥、Golang系列💡…… 访问 GitHub👀 https://github.com/cubxxw/awesome-cs-cloudnative-blockchain ⏬⏬⏬ GitHub - cubxxw/awesome-cs-cloudnative-blockchain: 📚 菜鸟成长手册🚀 CS系列 、云原生系列、区块链系列、web3系列🔥、Golang系列💡…… 最好需要什么 如果说第一步的话,那必须要了解 docker 容器底层原理和 Linux 内核基础相关。 先理解理解完架构了,读起来就比较快了。 学会使用它,不会使用,永远无法理解它的设计理念。 读源码还得带着问题去读,不然会很枯燥。一定要带着问题去读,不然就会很枯燥,然后陷入细节中去 读源码还得有一定积累量,比如你已经读过很多基础包的源码比如 net/http grpc-go 等等 要尝试着调试,要尝试着练习,要尝试着理解和分析产品理念,更要学会自己设计。 Kubernetes 工程师的学习顺序推荐 graph LR; 微服务 --> Docker; Docker --> Kubernetes; Kubernetes --> Knative; Knative --> Prometheus; Knative --> Jaeger; Knative --> EFK; Knative --> DevOps; Prometheus --> KVM; Jaeger --> KVM; EFK --> KVM; DevOps --> KVM; KVM --> Istio; Istio --> Kafka; Kafka --> Etcd; Etcd --> Tyk; 推荐的学习资源整理:...

August 6, 2024 · 2 分钟 · 423 字 · 熊鑫伟,我

利用 LangChain 框架的语言模型应用:开发者指南

什么是Langchain? LangChain 为开发者提供了一个强大的框架,用于快速构建和部署复杂的基于语言模型的应用程序,满足了需要集成多种语言处理功能至一体化解决方案的需求。 LangChain 的 PMF: 核心用户和使用场景:LangChain 设计用于简化使用语言模型进行应用开发的过程。它特别适合于需要将多个语言技术集成到一起的开发者和企业,例如集成聊天机器人、自动内容生成工具等。 市场需求:随着 AI 和机器学习技术的发展,市场上对于能够简化和加速语言模型应用开发的工具的需求持续增长。LangChain 通过提供一个结构化的方式来组合不同的语言能力(如理解、生成、概括等),满足了这一需求。 竞争优势:LangChain 的优势可能在于其框架的灵活性和扩展性。对开发者而言,这意味着可以用较少的代码实现更复杂的语言处理任务,这是其吸引用户的一个关键因素。 用户反馈和市场接受程度:衡量 PMF 的一个重要方面是用户的反馈和产品的市场接受程度。如果 LangChain 的用户基础持续增长,且用户反馈积极,那么可以认为它在实现良好的产品市场契合度方面是成功的。 LangChain简化了LLM应用程序生命周期的每个阶段: 开发:使用 LangChain 的开源构建块和组件构建您的应用程序。使用第三方集成和模板开始运行。 生产化:使用 LangSmith 检查、监控和评估您的链,以便您可以充满信心地持续优化和部署。 部署:使用 LangServe 将任何链转变为 API。 langchain 框架组成 具体来说,该框架由以下开源库组成: langchain-core :基础抽象和LangChain表达式语言。 langchain-community :第三方集成。 合作伙伴包(例如 langchain-openai 、 langchain-anthropic 等):一些集成已进一步拆分为自己的轻量级包,仅依赖于 langchain-core 。 langchain :构成应用程序认知架构的链、代理和检索策略。 langgraph:通过将步骤建模为图中的边和节点,使用 LLMs 构建健壮且有状态的多角色应用程序。 langserve:将 LangChain 链部署为 REST API。 更广泛的生态系统:...

May 22, 2024 · 27 分钟 · 5663 字 · 熊鑫伟, 我

探索大型语言模型(llm):人工智能在理解与生成人类语言方面的先锋

大语言模型简介 大语言模型(LLM,Large Language Model),也称大型语言模型,是一种旨在理解和生成人类语言的人工智能模型。 LLM 通常指包含数百亿(或更多)参数的语言模型,它们在海量的文本数据上进行训练,从而获得对语言深层次的理解。目前,国外的知名 LLM 有 GPT-3.5、GPT-4、PaLM、Claude 和 LLaMA 等,国内的有文心一言、讯飞星火、通义千问、ChatGLM、百川等。 为了探索性能的极限,许多研究人员开始训练越来越庞大的语言模型,例如拥有 1750 亿参数的 GPT-3 和 5400 亿参数的 PaLM 。尽管这些大型语言模型与小型语言模型(例如 3.3 亿参数的 BERT 和 15 亿参数的 GPT-2)使用相似的架构和预训练任务,但它们展现出截然不同的能力,尤其在解决复杂任务时表现出了惊人的潜力,这被称为“涌现能力”。以 GPT-3 和 GPT-2 为例,GPT-3 可以通过学习上下文来解决少样本任务,而 GPT-2 在这方面表现较差。因此,科研界给这些庞大的语言模型起了个名字,称之为“大语言模型(LLM)”。LLM 的一个杰出应用就是 ChatGPT ,它是 GPT 系列 LLM 用于与人类对话式应用的大胆尝试,展现出了非常流畅和自然的表现。 LLM 的发展历程 语言建模的研究可以追溯到20 世纪 90 年代,当时的研究主要集中在采用统计学习方法来预测词汇,通过分析前面的词汇来预测下一个词汇。但在理解复杂语言规则方面存在一定局限性。 随后,研究人员不断尝试改进,2003 年深度学习先驱 Bengio 在他的经典论文 《A Neural Probabilistic Language Model》中,首次将深度学习的思想融入到语言模型中。强大的神经网络模型,相当于为计算机提供了强大的"大脑"来理解语言,让模型可以更好地捕捉和理解语言中的复杂关系。 2018 年左右,Transformer 架构的神经网络模型开始崭露头角。通过大量文本数据训练这些模型,使它们能够通过阅读大量文本来深入理解语言规则和模式,就像让计算机阅读整个互联网一样,对语言有了更深刻的理解,极大地提升了模型在各种自然语言处理任务上的表现。 与此同时,研究人员发现,随着语言模型规模的扩大(增加模型大小或使用更多数据),模型展现出了一些惊人的能力,在各种任务中的表现均显著提升。这一发现标志着大型语言模型(LLM)时代的开启。 LLM 的能力 涌现能力(emergent abilities) 区分大语言模型(LLM)与以前的预训练语言模型(PLM)最显著的特征之一是它们的 涌现能力 。涌现能力是一种令人惊讶的能力,它在小型模型中不明显,但在大型模型中特别突出。类似物理学中的相变现象,涌现能力就像是模型性能随着规模增大而迅速提升,超过了随机水平,也就是我们常说的量变引起质变。 涌现能力可以与某些复杂任务有关,但我们更关注的是其通用能力。接下来,我们简要介绍三个 LLM 典型的涌现能力:...

May 15, 2024 · 30 分钟 · 6220 字 · 熊鑫伟, 我

塑造职业道路:开源简历生成器与专业简历技巧指南

在求职的海洋中,一份精心准备的简历就如同一艘设计精良的帆船,能让你在竞争激烈的浪潮中乘风破浪。随着开源社区的蓬勃发展,现如今市面上涌现出许多优秀的简历生成工具,旨在帮助求职者以最低的成本制作出既专业又具有个性化的简历。本文将为你详细介绍几款顶尖的开源简历生成工具,并提供实用的简历制作和优化技巧。 🌟 精选开源简历生成器 📄 Visiky Resume 如果你想在网页上展示你的简历,并且需要多种定制选项,Visiky Resume 是一个不错的选择。这款工具提供三种内置模板,支持自定义主题颜色和模块标题,甚至还支持中英文双语版本,非常适合具有国际求职需求的用户。 🌍 GitHub 仓库 📝 在线生成器 ✒️ Markdown Resume 对于Markdown的忠实粉丝来说,Markdown Resume 提供了一种极简方式来构建简历。它支持丰富的Markdown编辑功能,并且能够直接导出为PDF,非常适合那些追求内容优先、格式简洁的技术写作者。 📖 GitHub 仓库 🖥️ 在线生成器 🎨 Typora Markdown Resume 通过结合Typora、Markdown和CSS,你可以自由地打造一个个性化十足的简历。对于那些熟悉网页设计或喜欢手动调整每一个细节的创意专业人士来说,这无疑是一个极好的选择。 🛠️ GitHub 仓库 🌐 木及简历 木及简历提供了一个全面且功能强大的在线Markdown简历编辑器,支持实时PDF预览、智能排版和云存储,非常适合那些希望远离繁琐Word处理的用户。 💡 GitHub 仓库 🌐 官方网站 📚 Awesome CV Awesome CV 是 LaTeX 用户的福音,提供多种精美的模板,适合那些追求极致专业外观的求职者。 🎓 GitHub 仓库 🔗 OpenResume 作为一个功能全面的简历生成器,OpenResume 允许用户快速创建现代化的专业简历,并提供在线编辑和预览功能。 🌟 GitHub 仓库 📊 在线使用 🔗 Online-CV: 国外热门的在线简历/在线名片 这是一个基于Jekyll的极简主题,用户只需简单操作即可在GitHub上托管自己的简历(CV)。...

April 19, 2024 · 1 分钟 · 125 字 · 熊鑫伟,我

这是一篇我职业生涯总结的 OpenIM 故障排查指南

如果你想在寻找一篇针对 OpenIM 并且准备好具体的问题想来这里找到答案的话。那么很遗憾的告诉你,这篇并不是记录问题和编写答案的,这篇是读者经过开发和业务实战中以 OpenIM 为例总结出来的故障排查的方法,以及调试的技巧。如果你想从我这里学习到故障的排查以及问题定位的经验,那么请你继续读下去。 我将会从工作中经常出现的一些情况总结成类型来分析。 一个小小的玩笑,或许我比较逆人性,其他人都很害怕遇到 bug 的时候,我倒是对出现 bug 比较兴奋,我们后期读代码的时间和维护代码的时间其实是远远高于写代码的时间的。所以面对 bug, 我们的思考和总结尤其是非常重要,尤其是帮我们在写代码的时候也思考,代码的扩展性,和错误处理,是否可以禁得起考验 ~ 故障排查的基本概念 故障排查,我主要是分为几种情况,分别是,编译的故障排查,启动的故障排查,以及服务运行故障排查。这几种情况的故障排查思路都是大同小异的。 首先,我们需要发现问题,然后定位问题。我们可能需要经过多轮分析排查才能定位到问题的根因,最后去解决问题。排障流程如下图所示: 开始 | V 发现问题 ------> 记录问题的症状和相关情况 | V 定位问题 | V 进行初步分析 --------> 确定可能的原因 | | V | 是否需要深入分析?-----> 是 ------> 进行深入分析 | | | | | V | | 确定具体原因 | | | | | V | <-------- 是否已找到根本原因? | | | 否 | V 是否解决了问题? | 是 ------> 记录解决过程和解决方案 | | 否 ------> 调整策略或寻求帮助 | V 结束 如果想排查问题并解决问题,你还需要具备以下两个基本能力:...

April 16, 2024 · 7 分钟 · 1478 字 · 熊鑫伟,我

探索开源以及开源商业模式研究

开源为我带来了很多的成长,很多的成长经验和学习途径都是通过开源获取到并且学习到的。 这里有一篇我的第一次开源的成长指南:https://nsddd.top/zh/posts/open-source-contribution-guidelines/ 之前,在深圳的 全球流量大会(GTC) 一些来自我对开源商业化的思考,感兴趣可以阅读先阅读这篇思考文章: https://nsddd.top/zh/posts/openim-open-source-business-journey/ 第一次参与开源还是一个刚刚接触大学没多久 ~ ,调研了解到很多优秀的开源项目都会有很多业界大佬坐镇,因此会让大家以为只有“大牛”才能参与开源。实际上,开源社区经常会听到 “我是小白,我可以参与开源吗?” 这种声音,发出这种声音的同学往往是对开源感兴趣,但并不知道如何入手的小伙伴。 从开源定义来看,我们不需要成为“大牛”才能够参与开源。所谓开源,其实是一种促进个人成长和开源领域发展的行为,通过分享自身技术和经验来促进大家的技术交流,从这方面讲,开源是没有门槛的,只要有想要分享的东西,所有人都可以参与开源。 从参与要求来看,我们需要具备一定的知识积累才能参与开源。开源社区不是学校,社区会解答你的疑问,但首先你要有一定了解,才能准确提出你的疑问。对开源项目一无所知是无法参与开源的。当然,这与你是否成为“大牛”也并没有什么关系。因此,只要具备一定的技术积累,就可以参与相应的开源项目。 “罗马不是一天建成的”。没有人天生就是“大牛”,“大牛”们也是在参与中不断成长的,不要被虚无的 title 所困扰,只有不断的坚持和探索才能让自己不断成长! 其实旅游中也有过一些自己的思考,在旅游中我喜欢摄影,带着相机走走拍拍。或许和女生不一样 ,我开始的时候其实是更倾向于发现风景的,就像是在香港的麦理浩径的第一段和第二段的中间破边洲部分,我更多的是以人物在破边洲的悬崖边上,然后衬托后面的悬崖的美丽壮观。我们在工作中也是一样的, 在我们摄影的时候,我们面临对焦,开始在远方我们或许更多的是把焦点放在人物后面的背景上,或者说是 title,比如说某个人是某个大学、某某大厂的光环,反而忽略了他的本身。后面当你关注在人物身上,你会发现人物的美,你会想办法如何把漂亮的小姐姐这一瞬间记录下来。这个时候其实你更专注的是某一个人,这个转变很重要,你慢慢的发现自己专注自己了,而不是专注后面虚无缥缈的光环和头衔。 在开源社区中,我慢慢学习到了非常多的技巧,比如这里我总结出一篇开源社区的提问技巧:https://nsddd.top/zh/posts/the-art-of-asking-questions-in-open-source-communities/ 我对整个的开源成长也有自己的思考总结,写了这篇关于开源的成长性指南阶段,从我们第一次加入开源项目开始,到最后开源和维护自己的项目,以及商业化成长,可以参考: https://nsddd.top/zh/posts/stage-growth-of-open-source/https://nsddd.top/zh/posts/stage-growth-of-open-source/ 非常推荐阅读 ~ 在加入 OpenIM 的社区一年中,我将自己的开源理解和运营技巧都集成在了 OpenIM 的开源布道上,将 OpenIM 社区带入到了一个顶级的开源社区中来。除此之外,我参与过其他的优秀开源项目的贡献和维护,我会从自己的角度上来介绍如何运营一个优秀顶级的开源社区。 开源不仅是我的热爱,也逐渐成为我的一大优势。在我与开源的互动中,我们相得益彰。 开源除了给个人以及公司带来技术影响力之外,更为重要的是通过开源实现商业化价值,而这部分才是很多开源项目成功的实际驱动力。本文会介绍我对开源的理解,以及着重介绍自己对开源以及开源商业模式做了一个系统的研究,为决策项目是否应该开源、采用何种开源策略以及开源商业化路径提供参考意见。 如果你对我有兴趣,可以关注我的开源的 github 账户: https://github.com/cubxxw 开源商业模式 越是用户付费意愿强的功能,越是要闭源。越是用户觉得好玩的功能,能吸引到大家的功能,越是要开源。 我认为的开源商业模式是什么样的? 开源商业化模式文章后面会总结目前的所有的商业化模式,但是我觉得最主要的商业模式是 open-core 和 open-standard,还有一些非主流的,比如说开源软件免费,但结合硬件组合销售。 我认为: 越是用户付费意愿强的功能,越是要闭源。 越是用户觉得好玩的功能,能吸引到大家的功能,越是要开源。 我认为的开源商业模式是什么样的? 开源商业化模式文章后面会总结目前的所有的商业化模式,但是我觉得最主要的商业模式是 open-core 和 open-standard,还有一些非主流的,比如说开源软件免费,但结合硬件组合销售 开源也有自己的护城河吗? 担心开源后自己的产品被抄袭,开源,作为一个推动技术创新和社区合作的新力量,其商业模式多样,从提供专业支持和服务,到构建围绕核心开源项目的企业级产品。 我认为在开源的护城河上面,关键在于如何利用产品开源的独特价值和社区力量,创建难以复制的竞争优势。 所以基本上就是你要不是有开源 core 产品,作为线索漏斗去吸引你的用户,然后用这来做你整个公司的品牌,然后再做差异化功能的落地实践,然后另一种可能就是类似 MySQL 做咨询顾问的工作。 那么开源产品本身的护城河我理解其实抛开和普通产品护城河区别外,Open standard是今天开源软件商业化更好的一个形态,它对这个公司的技术能力提出了更高的要求。 open core 其实在云时代很难发展,即使是目前 OpenIM 那种做好 传统的 open core 模式在云时代下会比较难,可能难就难在构建好护城河,比如说跟那些云厂商比。各大云厂商,从各方面看,都有巨大优势:它本身就是一个大的流量资源,客户的流量在这里,推广的流量在这里,如果你很不幸,刚好跟这个云厂商贴在同一个赛道,你怎样去获得一个这个优势?这很困难,也是 MongoDB、Elastic、Redis 等开源厂商被逼的修改开源 License 背后的深层次原因。...

April 13, 2024 · 6 分钟 · 1121 字 · 熊鑫伟,我

Sora Ease 指南:开发者掌握 Sora AI 的全面指南

Sora 中文的提示词 | 调教指南。各种场景使用指南。学习怎么让它听你的话。兼顾了 Sora 的多场景应用。 这篇文章来源于 https://github.com/SoraEase/sora-prompt-zh 开源项目,SoraEase 希望为 sora 相关的开发者提供自动化,便捷,快速上手的工具和指南。 Sora | 索拉 是一个AI模型,可以从OpenAI的文本指令中创建逼真和富有想象力的场景。OpenAI正在教AI理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界交互的问题。 如果你是 sora 的学习者,希望获取到 sora 的最新的咨询和相关的开发项目,以及 sora 相关的开源项目,这里 awesome-sora 提供了 sora 相关的Sora 中文指南,指令指南,应用开发指南,精选资源清单,Sora 开发者精选工具框架。 索拉可提供以下功能: 文本到视频 动画 扩展生成的视频 视频到视频编辑 连接视频 图像生成(文本到图像) 在这个存储库中,你会发现各种可以和索拉一起使用的提示。我们根据视频的风格分配了不同的标签,让你可以根据标签快速找到提示示例(Prompt)和生成的视频,并根据需要进行修改。 虽然索拉尚未正式发布,但我们正在全面收集提示,以帮助你快速开始使用索拉生成你想要的视频。 提示词 官方提示词生成器 视频生成提示 官方视频生成提示 一位时尚女性穿着一件黑色皮夹克,一条长长的红色裙子和黑色靴子,手拿一个黑色的手提包,在热闹的东京街道上行走。周围充满了温暖的霓虹灯和动态的城市标识。她戴着太阳镜和红色口红,自信而随意地行走。街道潮湿而反光,形成了五彩灯光的镜面效果。许多行人在周围走动。 生成视频链接 几只巨大的长毛猛犸象漫步在积雪覆盖的草地上,它们的长毛在微风中轻轻飘动,远处是积雪覆盖的树木和戏剧性的雪山,午后的光线和稀薄的云彩以及高高悬挂的太阳形成了温暖的光芒。低角度的摄像视角令人惊叹,捕捉到了这些大型毛茸茸的哺乳动物和美丽的摄影,景深感非常强烈。 生成视频链接 一个电影预告片,讲述了一位30岁的太空人的冒险故事,他戴着一顶红色的羊毛编织头盔,蓝天,盐沙漠,电影风格,35mm胶片拍摄,色彩生动。 生成视频链接 无人机俯视着波涛汹涌的大苏尔加雷角海滩的崎岖悬崖。蓝色的海水拍打着,形成了白色的波浪,而夕阳的金光照亮了岩石海岸。远处有一座灯塔的小岛,悬崖边覆盖着绿色的灌木。从道路到海滩的陡峭下滑是一个戏剧性的壮举,悬崖边突出在海面上。这是一个捕捉到海岸的原始美和太平洋海岸公路崎岖风景的景色。 生成视频链接 动画场景展示了一个近距离的短毛怪兽跪在一个正在融化的红色蜡烛旁边。艺术风格是3D和逼真的,重点放在光线和纹理上。画面的情绪是惊奇和好奇,怪兽睁着大眼睛,张着大嘴盯着火焰看。它的姿势和表情传达出一种天真和俏皮的感觉,好像它是第一次探索周围的世界一样。温暖色调和戏剧性的光线进一步增强了图像的舒适氛围。 生成视频链接 一个华丽的纸艺世界,一个丰富多彩的珊瑚礁,到处都是色彩缤纷的鱼类和海洋生物。 生成视频链接 这个特写镜头展示了维多利亚皇冠鸽子引人注目的蓝色羽毛和红色胸膛。它的羽冠由精致的蕾丝羽毛制成,而它的眼睛是醒目的红色。鸟的头微微倾斜,给人一种威严和威严的印象。背景模糊,突出了鸟的引人注目的外观。...

March 14, 2024 · 2 分钟 · 250 字 · 熊鑫伟,我

2023年,我的旅行起点 - 2023年的我漫步在世界边缘

关于我 #最后的大学生涯 #旅行见闻 #跨国冒险 #生活转变 #成长故事 #探索未知 #回忆录 #文化体验 #自然之美 #城市漫步 #历史沉淀 #户外探险 #山川露营 #人生第一次 #世界遗产 #美食体验 #生活与工作的平衡 #毕业倒计时 #从武汉到深圳 #安徽黄山 #歙县古城探秘 #丽江古城之旅 #江西武功山探险 #香港麦理浩径 #澳门巴黎人游历 #川西雪山震撼 #马来西亚独旅 #新加坡探索 不知不觉间,这一年悄然流逝,时间仿佛在指尖间轻轻滑过,我也迎来了大学生活的最后一年。就在刚刚,我还仿佛站在武汉江汉路的大钟下漫步,感受着城市的脉动与历史的沉淀。转眼之间,我已经来到了深圳,这座我生活了大半年的城市。一切变化都显得如此迅速,却又自然而然,生活在这里,我感受到了不同的节奏和氛围。 旅行已然成为自己的生活和工作的平衡点,这一年,去过无数个地方,去过安徽黄山,还去过周边的歙县古城和丽江古城。第一次重装去江西武功山;第一次去绝美的香港麦理浩径,也在香港尝试了第一次绝好的露营体验;第一次去繁华的澳门,看了看澳门巴黎人。第一次去梦想中的川西,看到了让我震撼,触我心弦的雪山。也在第一次一个人出国马来西亚,一个人去新加坡 …. ,这篇博客来记录和回顾这一年来的经历,所见,所想 ~ 去年三月,第一个和室友 刘洋 ,鼓起勇气迈出大学的第一站, 黄山 。 人生第一次爬山 | 黄山 黄山旅程 ~ #第一次爬山是什么感受 #黄山 #古城 黄山有多美? 印象中记不清了,大脑中的杏仁核还是触发海马体进行了记忆检索,触动到了那天晚上登高,抬头望月,满眼云海的景象,平静的夜晚同时自己的荷尔蒙飙升到两百。这是我第一次抱着非常非常节省的心态去的旅行,黄山下有缆车,可以直达迎客松,但是我当时想着省钱就没上了,我觉得这是第一次的经验缺乏的不足。前期不断地爬山爬山 … ,心想,不愧是五大名山,这么难爬,这辈子第一次爬这么高的山,实际上让我觉得艰难的是。每爬山去一座山,后面依旧有一座佁然不动的大山阻在你前方,仿佛一颗千斤重的石锤压在你的内心,压得呼吸混乱,心乱如麻。 我们的冒险之旅从下午开始,直至晚上六点才踏上攀登的征途。沿途我们努力攀爬,终于在黄昏时分隐约见到了令人叹为观止的云海,这可能是我人生中第一次近距离观赏如此绝美的景象。到达山顶时,索道已经停止运营,让我们在凉爽的山风中驻足片刻,然后开始了夜间的下山之旅。不同于白天的紧张气氛,夜晚的山路带来了一种宁静而神秘的体验,下山后我们赶紧找一家酒店就住下了 ~ 晚上还在计划第二天继续完成第一天没有爬完的任务 ~ 但是第二条腿好疼,选择换一个地点旅游 。 随后我们前往黄山周边的小镇继续我们的冒险。比如,宏村或西递,这些小镇以其保存完好的古建筑和充满江南水乡特色的景观而闻名。恰逢阴天,小镇的氛围显得尤为迷人,雨后的青石板路,古老的徽派建筑,以及悠然自得的生活场景,构成了一幅动人的画面,拍照时更是别具一格,充满了江南水乡的独特韵味和艺术感。 感触 在这次旅行中,我认识到了自己准备不足的问题。我发现自己花费了过多的时间在查找攻略上,这不仅耗时而且效率低下。我深刻意识到,未来的旅行中必须制定出详尽的计划和攻略,避免盲目行动。然而,尽管准备不足,旅途中遇到的人和事却给我留下了难忘的印象。我见到了父亲带着年幼的孩子勇敢地登山,也看到了年长的叔叔坚持不懈地一步步往上爬。虽然我不清楚他们背后的故事,但这些经历激励了我,让我更加珍惜旅行中的每一次遭遇。当我第一次目睹云海的壮观景象时,心中的激动难以言表。在下山的路上,夜晚的月光与宁静的环境相结合,呈现出一种难以捉摸的美,是我此前未曾体验过的意境。 第一次踏足江南小镇,那里的美景让我流连忘返。街道美丽异常,小桥流水人家,恰如其分地展示了江南水乡的独特魅力和古朴风情。这不仅是一次对身体的锻炼,更是一次精神上的洗礼。攀登高山,俯瞰云海,仰视密集或稀疏的村落,这些体验让我感受到了自然的壮丽和生活的多样性。 回顾自己走过的每一步,或许是平平淡淡也好,艰难险阻,枯燥乏味,还是万紫千红也罢,总归是自己踏踏实实走过来的,总归是自己一步步感受和思考过来的。 来来往往的爬山者很多,人们为了不同的追求而爬山,或锻炼,或释压,或赏玩,都无所谓,重点是你去做了,他去做了,我们去做了。 于是,黄山教会了我第一课:勇敢迈出第一步,不要恐惧陌生感,勇敢出去看看 ! 社交链接 微博链接 人生第一次重装徒步徒步 | 武功山 #一个人重装徒步是什么感受 #第一次看到云海 #武功山的日出好靓...

March 3, 2024 · 2 分钟 · 364 字 · 熊鑫伟,我

Sora 技术讨论以及普通人和开发者如何利用 Sora 改变世界

Sora !!! 近日,互联网上掀起了一阵关于Sora的热潮。作为OpenAI最新推出的技术,Sora赋予了文字生成视频的魔力,其展示的效果令人印象深刻。 在当前,短视频的吸引力已远超过传统的小说和图像漫画。因此,Sora的问世,可能会在视频制作领域引发一场革命。 Sora的魅力在于,它能够基于文本描述生成长达60秒的视频内容,这些内容包括了精细的场景设置、栩栩如生的角色表情,以及流畅的镜头转换。 这项技术能够塑造出多元化的角色,实现特定的动作,并且在主题和背景方面做到与描述高度一致。Sora不仅准确地理解用户的指令,还能深刻洞察这些元素在现实世界中应有的呈现方式。 Sora展现了对语言的深刻洞察力,能够精确捕捉用户的意图,创造出既生动又情感充沛的视频内容。它甚至能在同一视频中呈现多个场景,同时保证角色的连贯性和视觉风格的统一。 然而,Sora并非完美无瑕。在模拟复杂场景下的物理效应,以及理解特定因果关系方面,它仍有待提升。例如,视频中的角色可能会咬一口饼干,却未能在饼干上留下明显的痕迹。 此外,Sora在处理空间细节,如分辨方向,或是描述一段时间内的具体事件,如摄影机的移动轨迹时,也可能显示出一定的局限性。 简单来说,简单来说,Sora 是一种能用文本生成最长 60 秒视频的技术,也可以用来生成图片,因为图片本质上是一帧的视频。 这篇文章,将会从 Sora 的架构,然后到 Sora 的生态,以及最后普通人或者开发者如何利用或者使用 Sora ,为这个 AI 浪潮做准备 ~ Sora的架构与创新 Sora代表了在AI视频生成技术中的一次重大创新,它在架构上与之前的Runway及Stable Diffusion等基于扩散模型的系统有着明显的区别。核心之处在于Sora采用了Diffusion Transformer模型,这是一个结合了扩散模型和Transformer模型的先进架构,为视频生成带来了前所未有的灵活性和质量提升。 架构比较 Runway/Stable Diffusion:这些系统基于扩散模型,通过逐步向图片添加噪点,再逐步去除噪点的方式生成清晰图片。这一过程虽然能够生成高质量的图像,但在视频生成上存在限制,尤其是在处理长视频和维持视频一致性方面。 Sora:Sora利用Diffusion Transformer模型,通过Transformer的编码器-解码器架构处理含噪点的输入图像,并预测出更清晰的图像版本。这不仅提高了图像处理的效率,而且在视频生成上实现了显著的进步。Sora的创新在于它处理的基本单位不是文本的Token,而是视频的“Patch”,即随时间变化的色块,这允许Sora处理任何大小和长宽比的视频,无需预先裁剪或调整。 创新应用 Sora的架构使其能够在训练时使用更多的数据和计算资源,得到更高质量的输出。这种方法不仅避免了视频预处理可能导致的原始构图丢失问题,而且因为能够接收任何视频作为训练输入,Sora的输出不会受到训练输入构图不良的影响。此外,Sora展示了模拟复杂物理现象(如液体动力学)的能力,这得益于其在训练时使用的大量视频数据中包含的物理规则。 研究基础与启示 Sora的开发受到了《Scalable Diffusion Models with Transformers》和《Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution》两篇论文的启发,这些研究来自Google,并在Sora项目启动后不久发表。这些研究提供了Sora架构的理论基础和技术细节,为Sora及未来AI视频生成技术的发展奠定了坚实的基础。 通过结合扩散模型和Transformer模型,Sora不仅在技术上实现了突破,而且为视频制作和AI应用开辟了新的可能性,预示着AI在影视制作、内容创作等领域的未来将更加广阔和深入。 Sora 和之前的 AI 视频生成工具有什么升级 Sora在AI视频生成领域的出现,标志着技术进步的一个重要里程碑。与早期的AI视频生成工具相比,Sora引入了一系列创新和升级,这些改进不仅提高了视频的生成质量,而且极大地扩展了视频创作的可能性。以下是Sora与之前AI视频生成工具的主要升级和优化: 提升生成视频的质量和稳定性 Sora的技术进步主要体现在能够生成高质量视频的能力上。与之前的工具相比,Sora生成的视频可以达到长达60秒的长度,同时支持镜头切换、确保画面中的人物和背景的稳定性,以及实现高画质输出。这些改进意味着使用Sora生成的视频更加逼真,观看体验更佳,为用户提供了更为丰富和动态的视觉内容。 创新的技术架构:Diffusion Transformer模型 Sora之所以能够实现上述优势,归功于其基于Diffusion Transformer模型的创新技术架构。这一架构融合了扩散模型和Transformer模型的优点,使Sora不仅能够生成文本内容,而且能够预测生成所谓的“时空补丁”。这些时空补丁可以理解为视频中的一个小片段,包含了几帧视频内容。这种方法使得Sora在训练过程中不受视频长度和显卡性能的限制,生成过程更加灵活多样,能够组合不同的时空补丁来创造出新的视频内容。 灵活性和多样性的增强 与基于Diffusion模型的Pika或基于Transformer模型的LLM和ChatGPT等工具相比,Sora的技术架构赋予了它更高的灵活性和多样性。Pika在处理视频内容时受到显卡性能的限制,而且主要模式集中在基于图片关键帧的视频扩展或风格转换上。Sora则通过其独特的模型,能够无需拘泥于特定的视频分辨率或长度限制,创造出更加丰富和多变的视频内容。 Sora 的算力要求 在讨论Sora的使用成本和算力要求之前,我们需要明白AI视频生成技术特别是像Sora这样的先进模型,其成本和算力需求是由多种因素决定的。这些因素包括但不限于模型的复杂度、生成内容的分辨率、视频的长度、以及所需的生成质量。以下是对Sora使用成本和算力要求的一个专业化和详细的分析。...

February 24, 2024 · 2 分钟 · 221 字 · 熊鑫伟,我