<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>机器学习与数据科学 (Machine Learning &amp; Data Science) on 熊鑫伟（cubxxw）的简体中文博客 🇨🇳</title>
    <link>https://nsddd.top/zh/tags/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E4%B8%8E%E6%95%B0%E6%8D%AE%E7%A7%91%E5%AD%A6-machine-learning--data-science/</link>
    <description>Recent content in 机器学习与数据科学 (Machine Learning &amp; Data Science) on 熊鑫伟（cubxxw）的简体中文博客 🇨🇳</description>
    <image>
      <title>熊鑫伟（cubxxw）的简体中文博客 🇨🇳</title>
      <url>https://nsddd.top/assets/og-image.png</url>
      <link>https://nsddd.top/assets/og-image.png</link>
    </image>
    <generator>Hugo -- gohugo.io</generator>
    <language>zh-cn</language>
    <lastBuildDate>Wed, 15 May 2024 20:12:29 +0800</lastBuildDate><atom:link href="https://nsddd.top/zh/tags/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E4%B8%8E%E6%95%B0%E6%8D%AE%E7%A7%91%E5%AD%A6-machine-learning--data-science/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>探索大型语言模型（llm）：人工智能在理解与生成人类语言方面的先锋</title>
      <link>https://nsddd.top/zh/ai-technology/posts/exploring-large-language-models-llms-pioneering-ai-understanding-generation-human-language/</link>
      <pubDate>Wed, 15 May 2024 20:12:29 +0800</pubDate>
      
      <guid>https://nsddd.top/zh/ai-technology/posts/exploring-large-language-models-llms-pioneering-ai-understanding-generation-human-language/</guid>
      <description>&lt;ul&gt;
&lt;li&gt;AI &amp;amp; Technology
description: &amp;gt;
本文探讨了大型语言模型（LLM）的变革能力，这些模型旨在理解和生成人类语言，展示了人工智能技术的先锋角色。通过利用大量数据和复杂的机器学习架构，这些模型展现了远超前任的涌现能力。&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id=&#34;大语言模型简介&#34;&gt;大语言模型简介&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;大语言模型（LLM，Large Language Model），也称大型语言模型，是一种旨在理解和生成人类语言的人工智能模型&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;LLM 通常指包含&lt;strong&gt;数百亿（或更多）参数的语言模型&lt;/strong&gt;，它们在海量的文本数据上进行训练，从而获得对语言深层次的理解。目前，国外的知名 LLM 有 GPT-3.5、GPT-4、PaLM、Claude 和 LLaMA 等，国内的有文心一言、讯飞星火、通义千问、ChatGLM、百川等。&lt;/p&gt;
&lt;p&gt;为了探索性能的极限，许多研究人员开始训练越来越庞大的语言模型，例如拥有 &lt;code&gt;1750 亿&lt;/code&gt;参数的 &lt;code&gt;GPT-3&lt;/code&gt; 和 &lt;code&gt;5400 亿&lt;/code&gt;参数的 &lt;code&gt;PaLM&lt;/code&gt; 。尽管这些大型语言模型与小型语言模型（例如 &lt;code&gt;3.3 亿&lt;/code&gt;参数的 &lt;code&gt;BERT&lt;/code&gt; 和 &lt;code&gt;15 亿&lt;/code&gt;参数的 &lt;code&gt;GPT-2&lt;/code&gt;）使用相似的架构和预训练任务，但它们展现出截然不同的能力，尤其在解决复杂任务时表现出了惊人的潜力，这被称为“&lt;strong&gt;涌现能力&lt;/strong&gt;”。以 GPT-3 和 GPT-2 为例，GPT-3 可以通过学习上下文来解决少样本任务，而 GPT-2 在这方面表现较差。因此，科研界给这些庞大的语言模型起了个名字，称之为“大语言模型（LLM）”。LLM 的一个杰出应用就是 &lt;strong&gt;ChatGPT&lt;/strong&gt; ，它是 GPT 系列 LLM 用于与人类对话式应用的大胆尝试，展现出了非常流畅和自然的表现。&lt;/p&gt;
&lt;h3 id=&#34;llm-的发展历程&#34;&gt;LLM 的发展历程&lt;/h3&gt;
&lt;p&gt;语言建模的研究可以追溯到&lt;code&gt;20 世纪 90 年代&lt;/code&gt;，当时的研究主要集中在采用&lt;strong&gt;统计学习方法&lt;/strong&gt;来预测词汇，通过分析前面的词汇来预测下一个词汇。但在理解复杂语言规则方面存在一定局限性。&lt;/p&gt;
&lt;p&gt;随后，研究人员不断尝试改进，&lt;code&gt;2003 年&lt;/code&gt;深度学习先驱 &lt;strong&gt;Bengio&lt;/strong&gt; 在他的经典论文 &lt;code&gt;《A Neural Probabilistic Language Model》&lt;/code&gt;中，首次将深度学习的思想融入到语言模型中。强大的&lt;strong&gt;神经网络模型&lt;/strong&gt;，相当于为计算机提供了强大的&amp;quot;大脑&amp;quot;来理解语言，让模型可以更好地捕捉和理解语言中的复杂关系。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;2018 年&lt;/code&gt;左右，&lt;strong&gt;Transformer 架构的神经网络模型&lt;/strong&gt;开始崭露头角。通过大量文本数据训练这些模型，使它们能够通过阅读大量文本来深入理解语言规则和模式，就像让计算机阅读整个互联网一样，对语言有了更深刻的理解，极大地提升了模型在各种自然语言处理任务上的表现。&lt;/p&gt;
&lt;p&gt;与此同时，研究人员发现，随着&lt;strong&gt;语言模型规模的扩大（增加模型大小或使用更多数据）&lt;/strong&gt;，模型展现出了一些惊人的能力，在各种任务中的表现均显著提升。这一发现标志着大型语言模型（LLM）时代的开启。&lt;/p&gt;
&lt;h2 id=&#34;llm-的能力&#34;&gt;LLM 的能力&lt;/h2&gt;
&lt;h3 id=&#34;涌现能力emergent-abilities&#34;&gt;涌现能力（emergent abilities）&lt;/h3&gt;
&lt;p&gt;区分大语言模型（LLM）与以前的预训练语言模型（PLM）最显著的特征之一是它们的 &lt;code&gt;涌现能力&lt;/code&gt; 。涌现能力是一种令人惊讶的能力，它在小型模型中不明显，但在大型模型中特别突出。类似物理学中的相变现象，涌现能力就像是模型性能随着规模增大而迅速提升，超过了随机水平，也就是我们常说的&lt;strong&gt;量变引起质变&lt;/strong&gt;。&lt;/p&gt;</description>
    </item>
    
  </channel>
</rss>
