大语言模型(阅读笔记1)

第一章 引言

1.1 语言模型的发展历程

语言模型的发展大致分为四个阶段:统计语言模型解决了最初的词序预测问题,但受限于稀疏性与维度灾难;神经语言模型引入词嵌入,改进语义表征;预训练模型(如 BERT、GPT-1)借助大规模无监督学习与微调,提升了上下文理解;最终演进到大语言模型(如 GPT-3/4),通过规模扩展展现出“涌现能力”。
这里最关键的转折点是 Transformer 的提出,它既解决了长程依赖问题,又适配了并行计算,为后续 LLM 奠定了基础。

1.2 大语言模型的能力特点