LLM timeline

发表评论 / 作者： Mike / 21 2 月, 2025

1.时间线

2017年：Transformer的诞生：一切的开端

在Transformer出现之前，主流序列模型是RNN和CNN，但它们有两个致命缺陷：

无法高效处理长文本（例如RNN记不住太长的对话）；
训练速度慢（RNN必须逐字处理，无法并行计算）。

Transformer的突破：
Google团队在论文《Attention is All You Need》中提出了一种新架构：

自注意力机制：让模型能同时关注文本中所有位置的关系（例如理解”它”指代的是前文中的”苹果”还是”手机”）；
并行计算：大幅提升训练速度（比RNN快10倍以上）。

影响：
Transformer成为大模型的“通用引擎”，为后续所有突破打下基础。

2018年：BERT与GPT分道扬镳——理解与生成的两条路

为什么分化：
研究者发现Transformer可以朝两个方向演进：

BERT（Google）：通过“完形填空”训练（掩盖部分文本让模型预测），擅长理解语义（比如搜索、问答）；
GPT-1（OpenAI）：通过“预测下一个词”训练，擅长生成连贯文本（比如写文章）。

关键点：

BERT是双向的（同时看前后文），GPT是单向的（只能看前文），这决定了它们的应用场景；
两者都证明了“预训练+微调”模式的有效性（先用海量数据预训练通用能力，再针对具体任务微调）。

2019-2020年：暴力美学——越大越好？

核心事件：

GPT-2/GPT-3（OpenAI）：参数从15亿（GPT-2）暴涨到1750亿（GPT-3），模型展现“涌现能力”（例如无监督学习、多任务处理）。
T5（Google）：提出“万物皆可文本”的统一框架（把翻译、摘要等任务都转化为文本生成问题）。

驱动力：

实验证明模型规模与性能正相关（参数越多，数据量越大，模型越聪明）；
云计算（如GPU集群）和投资（OpenAI获微软10亿美元）让“暴力堆参数”成为可能。

2021年：反思与优化——效率 vs 性能

问题暴露：

GPT-3训练一次耗资460万美元，碳排放量相当于一辆汽车绕地球开100圈；
大模型存在偏见、胡说八道（幻觉问题）、难以落地到具体场景。

解决方案：

高效化：如Switch Transformer（Google）用“稀疏激活”技术，用1/7算力达到同等效果；
专业化：如Codex（OpenAI）专注代码生成，证明垂直领域的小模型可能比通用大模型更实用。

2022年：多模态融合——打破文字枷锁

代表模型：

CLIP（OpenAI）：连接文本与图像（比如用文字描述生成图片）；
DALL-E 2：根据文本生成高质量图片；
PaLM（Google）：整合视觉、语言、机器人控制。

为什么重要：
人类通过多感官认知世界，单一文本模型无法满足真实需求（比如医生需要同时看CT影像和病历文本）。

2023年：开源与平民化——技术民主化

关键事件：

LLaMA（Meta）：开源130亿参数模型，手机都能跑；
Alpaca/LoRA：用几百美元微调小模型达到接近GPT-3.5的效果。

意义：

打破OpenAI/Google的技术垄断，催生创业潮（如个人开发者也能做AI应用）；
引发安全争议（开源模型可能被用于制造假新闻、垃圾邮件）。

2024年：竞争与反思——实用主义的回归

趋势：

价值观对齐：Claude（Anthropic）、GPT-4通过人类反馈强化学习（RLHF）减少有害输出；
小型化：如微软Phi-3用38亿参数实现接近GPT-3.5的能力；
垂直化：法律、医疗、金融等专用模型爆发（例如BloombergGPT）。

底层逻辑：
行业从“盲目追求参数规模”转向平衡能力、成本、安全、能耗，让技术真正落地。

总结：技术发展的核心逻辑

需求驱动：从解决具体问题（如长文本处理）到满足复杂场景（多模态）；
硬件与数据的飞轮：GPU算力提升+互联网数据爆炸支撑模型扩张；
商业与开源的博弈：大公司争夺主导权 vs 社区推动平民化；
社会反馈修正方向：安全、伦理、环保问题倒逼技术优化。

未来的核心挑战已从“如何让模型更强大”转向“如何让强大模型安全服务于人”。

2. Transformer

这是测试文本，单击 “编辑” 按钮更改此文本。