欢迎您来到嗨留学网站!

微信
手机版
关于我们

llm是什么意思

2024-12-01 15:35:08 投稿人 :admin 围观 :

本文讲述了大语言模型LLM的基本原理以及应用,仅供参考。

最近在做一些基于LLM(Large Language Models)的项目,计划系统化的梳理一个LLM系列文章,整个大纲,大概包括以下内容:

1、大语言模型:LLM的基本原理解读

2、如何将LLM应用到实际的业务中

3、基于LLM构建应用程序:设计指南

4、LLM的高阶应用:提示工程

5、LLM的高阶应用:插件的使用

6、LLM的高阶应用:模型微调

7、基于LLM构建应用程序:注意事项

8、基于LLM的应用开发框架

今天分享的主题是:LLM的基本原理。

在介绍LLM之前,我们先来了解一下自然语言处理(NLP)。NLP是AI的一个子领域,专注于使计算机能够处理、解释和生成人类语言,主要任务包括:文本分类、自动翻译、问题回答、生成文本等。

在LLM诞生之前,NLP一直在匍匐前进,异常的艰难,直到LLM的出现,才彻底的改变了NLP的现状。

一、什么是LLM?

大语言模型:LLM(Large Language Models),是试图完成文本生成任务的一类ML(Machine Learning,机器学习)模型。

LLM使计算机能够处理、解释和生成人类语言,从而提高人机交互效率。为了做到这一点,LLM会分析大量文本数据或基于这些数据进行训练,从而学习句子中各词之间的模式和关系。

这个学习过程可以使用各种数据源,包括维基百科、Reddit、成千上万本书,甚至互联网本身。

在给定输入文本的情况下,这个学习过程使得LLM能够预测最有可能出现的后续单词,从而生成对输入文本有意义的回应。

在过去的2年中,市场上发布的一些现代语言模型非常庞大(如GPT系列模型、文心一言、通义千问、Kimi、豆包等等),并且已经在大量文本上进行了训练,因此它们可以直接执行大多数NLP任务,如文本分类、自动翻译、问题回答、生成文本等。

二、LLM的发展历程

LLM的发展可以追溯到几年前。它始于简单的语言模型,如n-gram模型、LSTM网络等等,直到Transformer模型的出现,才彻底的催生了LLM。

1、N-gram模型

n-gram模型通过使用词频来根据前面的词预测句子中的下一个词,其预测结果是在训练文本中紧随前面的词出现的频率最高的词。虽然这种方法提供了不错的着手点,但是n-gram模型在理解上下文和语法方面仍需改进,因为它有时会生成不连贯的文本。

2、LSTM网络

为了提高n-gram模型的性能,人们引入了更先进的学习算法,包括循环神经网络(recurrent neural network,RNN)和长短期记忆(long short-termmemory,LSTM)网络。与n-gram模型相比,这些模型能够学习更长的序列,并且能够更好地分析上下文,但它们在处理大量数据时的效率仍然欠佳。尽管如此,在很长的一段时间里,这些模型算是最高效的,因此在自动翻译等任务中被广泛使用。

3、Transformer模型

Transformer架构彻底改变了NLP领域,这主要是因为它能够有效地解决之前的NLP模型存在的一个关键问题:很难处理长文本序列并记住其上下文。(也就是臭名昭著的“灾难性遗忘问题”),Transformer则具备高效处理和编码上下文的能力。

这场革命的核心支柱是注意力机制,这是一个简单而又强大的机制。模型不再将文本序列中的所有词视为同等重要,而是在任务的每个步骤中关注最相关的词。

交叉注意力和自注意力是基于注意力机制的两个架构模块,它们经常出现在LLM中。Transformer架构广泛使用了交叉注意力模块和自注意力模块。

交叉注意力机制

交叉注意力有助于模型确定输入文本的不同部分与输出文本中下一个词的相关性。它就像一盏聚光灯,照亮输入文本中的词或短语,并突出显示预测下一个词所需的相关信息,同时忽略不重要的细节。

为了说明这一点,让我们以一个简单的句子翻译任务为例。

假设输入文本是这样一个英语句子:Alice enjoyed the sunny weather in Brussels(Alice很享受布鲁塞尔阳光明媚的天气)。

如果目标语言是法语,那么输出文本应该是:Alice a profité du temps ensoleillé à Bruxelles。

在这个例子中,让我们专注于生成法语单词ensoleillé,它对应原句中的sunny。

对于这个预测任务,交叉注意力模块会更关注英语单词sunny和weather,因为它们都与ensoleillé 相关。通过关注这两个单词,交叉注意力模块有助于模型为句子的这一部分生成准确的翻译结果。

自注意力机制

自注意力机制是指模型能够关注其输入文本的不同部分。具体到NLP领域,自注意力机制使模型能够评估句子中的每个词相比于其他词的重要性。这使得模型能够更好地理解各词之间的关系,并根据输入文本中的多个词构建新概念。

来看一个更具体的例子。

考虑以下句子:Alice received praise from hercolleagues(Alice受到同事的赞扬)。

假设模型试图理解her这个单词的意思。自注意力机制给句子中的每个单词分配不同的权重,突出在这个上下文中与her相关的单词。

在本例中,自注意力机制会更关注Alice和colleagues这两个单词。如前所述,自注意力机制帮助模型根据这些单词构建新概念。在本例中,可能出现的一个新概念是Alice’s colleagues。

Transformer架构的并行优势

Transformer架构具有易于并行化的优势。这意味着 Transformer架构可以同时处理输入文本的多个部分,而无须顺序处理。这样做可以提高计算速度和训练速度,因为模型的不同部分可以并行工作,而无须等待前一步骤完成。

基于Transformer架构的模型所具备的并行处理能力与图形处理单元(graphics processing unit,GPU)的架构完美契合,后者专用于同时处理多个计算任务。由于高度的并行性和强大的计算能力,GPU非常适合用于训练和运行基于Transformer架构的模型。硬件上的这一进展使数据科学家能够在大型数据集上训练模型,从而为开发LLM铺平了道路。

编码器和解码器模型

Transformer架构由来自谷歌公司的Ashish Vaswani等人在2017年的论文“Attention Is All You Need”中提出,最初用于序列到序列的任务,如机器翻译任务。

标准的Transformer架构有两个主要组件:编码器和解码器,两者都十分依赖注意力机制。

编码器的任务是处理输入文本,识别有价值的特征,并生成有意义的文本表示,称为嵌入(embedding)。

解码器使用这个嵌入来生成一个输出,比如翻译结果或摘要文本。这个输出有效地解释了编码信息。

生成式预训练Transformer

生成式预训练Transformer(Generative Pre-trained Transformer,GPT)是一类基于Transformer架构的模型,专门利用原始架构中的解码器部分。

在GPT中,不存在编码器,因此无须通过交叉注意力机制来整合编码器产生的嵌入。也就是说,GPT仅依赖解码器内部的自注意力机制来生成上下文感知的表示和预测结果。

GPT模型的标记和预测实现

GPT模型接收一段提示词作为输入,然后生成一段文本作为输出。这个过程被称为文本补全。

当GPT模型收到一段提示词之后,它首先将输入拆分成标记(token)。这些标记代表单词、单词的一部分、空格或标点符号。

因为有了注意力机制和Transformer架构,LLM能够轻松处理标记并解释它们之间的关系及提示词的整体含义。Transformer架构使模型能够高效地识别文本中的关键信息和上下文。

为了生成新的句子,LLM根据提示词的上下文预测最有可能出现的下一个标记。与之前的循环模型不同,带有注意力机制的Transformer架构使得LLM能够将上下文作为一个整体来考虑。基于这个上下文,模型为每个潜在的后续标记分配一个概率分数,然后选择概率最高的标记作为序列中的下一个标记。从而实现文本的预测。

以上便是LLM的基本实现原理。

本文由人人都是产品经理作者【长弓PM】,微信公众号:【AI产品经理社】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

上一篇:lhr是哪个机场 下一篇:返回列表

相关文章

  • llm是什么意思
    llm是什么意思

    本文讲述了大语言模型LLM的基本原理以及应用,仅供参考。最近在做一些基于LLM(Large Language Models)的项目,计划系统化的梳理一个LLM系列文章,整个大纲,大概包括以下内容:1、大语...

    2024-12-01 15:35:08
  • lhr是哪个机场
    lhr是哪个机场

    ​PrimeUK® - 英国最大的教育产品与方案提供商作为一个国际大都市和国际交通中心, 在世界上任何一个国家几乎都可以找到飞往英国的航班, 因此机场对于伦敦的国际地位来说也...

    2024-12-01 15:30:15
  • lfs是什么意思
    lfs是什么意思

    近年来,随着技术的迅速发展,科学家越来越多地开始尝试将神经调控技术应用于神经和精神疾病的干预,并尝试通过非侵入的手段治疗脑疾病。神经调控技术作为一种新兴的前沿技术,是指...

    2024-12-01 15:25:09
  • level是什么意思
    level是什么意思

    编辑导语:证券公司及交易所和客户之间存在诸多IT系统以完成一笔交易,对普通用户而言更多使用的是交易App进行报单买卖股票;但买卖股票的过程中实际涉及到了行情系统,柜台系统,清...

    2024-12-01 15:20:46
  • la是美国哪个城市
    la是美国哪个城市

    为什么要生活在尔湾?这里是全球最适合居住的地方。最安全 最宜居经济发达教育资源丰富适合建立家庭及育儿幸福感高、华裔青睐……在这些方面,尔湾都榜上有名一个不足50年历史...

    2024-12-01 15:15:08
  • lady是什么意思
    lady是什么意思

    在英语中对女性的称呼有很多,除了入门级别的Miss,Mrs.和Ms.,最常用的就是woman和lady。不过,你知道woman和lady在日常使用中到底该怎么区分吗?其实,两者的区别十分微妙,就像这句话...

    2024-12-01 15:10:13
  • Lady什么意思
    Lady什么意思

    在英语的世界里,有些短语的组合看似简单,却蕴含着意想不到的含义。比如"lady"和"bird",你知道它们组合在一起的"ladybird"是什么意思吗?这可不是女士鸟...

    2024-12-01 15:05:07
  • labor可数吗
    labor可数吗

    1. There is no room for further negotiation. If you still feel you cannot accept our offer, we hope it will not prevent you from contacting us again whenever yo...

    2024-12-01 15:00:38
  • kcl是什么药
    kcl是什么药

    氯化钾的产品介绍氯化钾是一种无机盐,化学式为KCl,外观如同食盐,白色结晶小颗粒粉末,味极咸,无臭无毒性。分子量74.5513,熔点770℃,沸点1420℃,水溶性,342g/L(20℃),密度1.98g/cm³,闪...

    2024-12-01 14:55:04
  • kanazawa在日本哪里
    kanazawa在日本哪里

    2020年1月30日,我在这样一个特殊时期访问金泽,心情尤为复杂。一场源于人与自然的关系破坏而导致的全球疫情,让我特别留意金泽的自然环境、城市环境、人的生活状态。石川县的金...

    2024-12-01 14:50:16
标签列表