LLM timeline

1.时间线

2017年:Transformer的诞生:一切的开端

在Transformer出现之前,主流序列模型是RNN和CNN,但它们有两个致命缺陷:

  1. 无法高效处理长文本(例如RNN记不住太长的对话);

  2. 训练速度慢(RNN必须逐字处理,无法并行计算)。

Transformer的突破
Google团队在论文《Attention is All You Need》中提出了一种新架构:

  • 自注意力机制:让模型能同时关注文本中所有位置的关系(例如理解”它”指代的是前文中的”苹果”还是”手机”);

  • 并行计算:大幅提升训练速度(比RNN快10倍以上)。

影响
Transformer成为大模型的“通用引擎”,为后续所有突破打下基础。

                                                                                                                                           


2018年:BERT与GPT分道扬镳——理解与生成的两条路

为什么分化
研究者发现Transformer可以朝两个方向演进:

  1. BERT(Google):通过“完形填空”训练(掩盖部分文本让模型预测),擅长理解语义(比如搜索、问答);

  2. GPT-1(OpenAI):通过“预测下一个词”训练,擅长生成连贯文本(比如写文章)。

关键点

  • BERT是双向的(同时看前后文),GPT是单向的(只能看前文),这决定了它们的应用场景;

  • 两者都证明了“预训练+微调”模式的有效性(先用海量数据预训练通用能力,再针对具体任务微调)。

                                                                                                                                           


2019-2020年:暴力美学——越大越好?

核心事件

  • GPT-2/GPT-3(OpenAI):参数从15亿(GPT-2)暴涨到1750亿(GPT-3),模型展现“涌现能力”(例如无监督学习、多任务处理)。

  • T5(Google):提出“万物皆可文本”的统一框架(把翻译、摘要等任务都转化为文本生成问题)。

驱动力

  • 实验证明模型规模与性能正相关(参数越多,数据量越大,模型越聪明);

  • 云计算(如GPU集群)和投资(OpenAI获微软10亿美元)让“暴力堆参数”成为可能。

                                                                                                                                           


2021年:反思与优化——效率 vs 性能

问题暴露

  • GPT-3训练一次耗资460万美元,碳排放量相当于一辆汽车绕地球开100圈;

  • 大模型存在偏见、胡说八道(幻觉问题)、难以落地到具体场景。

解决方案

  1. 高效化:如Switch Transformer(Google)用“稀疏激活”技术,用1/7算力达到同等效果;

  2. 专业化:如Codex(OpenAI)专注代码生成,证明垂直领域的小模型可能比通用大模型更实用。

                                                                                                                                           


2022年:多模态融合——打破文字枷锁

代表模型

  • CLIP(OpenAI):连接文本与图像(比如用文字描述生成图片);

  • DALL-E 2:根据文本生成高质量图片;

  • PaLM(Google):整合视觉、语言、机器人控制。

为什么重要
人类通过多感官认知世界,单一文本模型无法满足真实需求(比如医生需要同时看CT影像和病历文本)。

                                                                                                                                           


2023年:开源与平民化——技术民主化

关键事件

  • LLaMA(Meta):开源130亿参数模型,手机都能跑;

  • Alpaca/LoRA:用几百美元微调小模型达到接近GPT-3.5的效果。

意义

  • 打破OpenAI/Google的技术垄断,催生创业潮(如个人开发者也能做AI应用);

  • 引发安全争议(开源模型可能被用于制造假新闻、垃圾邮件)。

                                                                                                                                           


2024年:竞争与反思——实用主义的回归

趋势

  1. 价值观对齐:Claude(Anthropic)、GPT-4通过人类反馈强化学习(RLHF)减少有害输出;

  2. 小型化:如微软Phi-3用38亿参数实现接近GPT-3.5的能力;

  3. 垂直化:法律、医疗、金融等专用模型爆发(例如BloombergGPT)。

底层逻辑
行业从“盲目追求参数规模”转向平衡能力、成本、安全、能耗,让技术真正落地。


总结:技术发展的核心逻辑

  1. 需求驱动:从解决具体问题(如长文本处理)到满足复杂场景(多模态);

  2. 硬件与数据的飞轮:GPU算力提升+互联网数据爆炸支撑模型扩张;

  3. 商业与开源的博弈:大公司争夺主导权 vs 社区推动平民化;

  4. 社会反馈修正方向:安全、伦理、环保问题倒逼技术优化。

未来的核心挑战已从“如何让模型更强大”转向“如何让强大模型安全服务于人”。

2. Transformer

这是测试文本,单击 “编辑” 按钮更改此文本。