分类
标签云
评论汇
每周精读
MBA智库资讯,汇聚中国主流的商业管理新闻
大型语言模型,也叫大语言模型、大模型(Large Language Model,LLM;Large Language Models,LLMs) 大型语言模型(LLM)是指包含数千亿(或更多)参数的语言模型,这些参数是在大量文本数据上训练的,例如模型 GPT-3、PaLM、Galactica 和 LLaMA。具体来说,LLM 建立在 Transformer 架构之上,其中多头注意力层堆叠在一个非常深的神经网络中。现有的 LLM 主要采用与小语言模型类似的模型架构(即 Transformer)和预训练目标(即语言建模)。作为主要区别,LLM 在很大程度上扩展了模型大小、预训练数据和总计算量(扩大倍数)。他们可以更好地理解自然语言,并根据给定的上下文(例如 prompt)生成高质量的文本。这种容量改进可以用标度律进行部分地描述,其中性能大致遵循模型大小的大幅增加而增加。然而根据标度律,某些能力(例如,上下文学习)是不可预测的,只有当模型大小超过某个水平时才能观察到。[https://new.qq.com/rain/a/20230403A03TBP00 大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写.机器之心.2023-04-03]