想象你正在和一个朋友聊天。如果你的朋友完全不记得你刚才说了什么，每次回复都像是第一次见面，这样的对话会多么奇怪！同样，要让AI理解人类语言，它也需要"记住"上下文。这就是循环神经网络(RNN)的用武之地。

1. 什么是RNN？它和普通神经网络有什么区别？

1.1 前馈神经网络：健忘的助手

想象一个普通的神经网络（前馈神经网络，FNN）像一个没有记忆的助手：

你问它"长颈鹿的脖子怎么样？"，它可能会回答"长"或"短"，完全取决于"脖子"这个词
它完全不记得你提到了"长颈鹿"
就像只看到单帧画面的观众，无法理解连续剧情

1.2 RNN：有记忆力的助手

而RNN则像是一个有记忆力的助手：

它不仅能看见当前的词"脖子"，还能记住前面的"长颈鹿"
结合这些信息，它更可能回答"长"而不是"短"或"疼"
就像看连续剧的观众，能把前后情节联系起来理解

2. RNN如何"记住"信息？

RNN的核心是一种特殊的"记忆单元"，我们称之为隐状态 (hidden state)：

开始对话 ：初始隐状态是空白的（就像刚认识的陌生人）
接收第一个词 ："长颈鹿"进来，RNN更新它的隐状态（记住我们在谈论长颈鹿）
接收第二个词 ："脖子"进来，RNN结合隐状态和新词（"哦，我们在讨论长颈鹿的脖子"）
做出预测 ：基于当前隐状态，预测下一个最可能出现的词是"长"

这个过程就像你读书时：

读到第一句，你形成初步理解
读到第二句，你结合第一句的理解来解读
随着阅读继续，你不断更新对整个段落的理解

2.1 一个小例子

假设我们训练一个RNN模型，让它学习预测关于长颈鹿的描述：

输入序列：[长颈鹿, 脖子, ?]

RNN的思考过程：

看到"长颈鹿" → 隐状态h₁记录"我们在谈论长颈鹿"
看到"脖子" → 隐状态h₂更新为"我们在谈论长颈鹿的脖子"
预测下一个词 → 由于长颈鹿的脖子通常很长，模型预测"长"的概率最高

这样，RNN成功地利用之前的上下文做出了更准确的预测！

3. RNN的记忆难题：太长的对话会遗忘

RNN虽然能记住过去，但也面临一个严重问题：记忆会逐渐模糊 。

想象你试图记住一长串数字：

如果只有几个数字（"123"），很容易记住
如果有一百个数字（"1234567890..."），你很可能记不住开头的内容

RNN也有同样的困境。当处理很长的文本时：

早期的信息在多次循环后会逐渐"淡化"
这在人工智能领域称为"梯度消失问题"
就像在一场冗长的会议中，你记不住开场时讨论的内容

3.1 解决方案：LSTM和GRU

为了解决这个问题，科学家们发明了RNN的升级版本：

LSTM (长短期记忆网络)：像一个有整理能力的记忆管家，知道什么该记住，什么该遗忘
GRU (门控循环单元)：LSTM的简化版本，但效果也非常好

这些改进型RNN就像是记忆力超强的助手，能更好地处理长篇对话和复杂文本。

4. 生成文本：RNN的创作能力

训练好的RNN语言模型不仅能预测下一个词，还能创作完整文本 ！这个过程称为自回归生成 ：

开始：输入一个起始词，如"长颈鹿"
第一步 ：模型预测下一个最可能的词"脖子"
第二步 ：将"长颈鹿,脖子"作为输入，预测下一个词"长"
第三步 ：将"长颈鹿,脖子,长"作为输入，预测下一个词"..."
不断重复 ，直到生成完整句子

4.1 生成示例

输入起始词："在一个遥远的森林里，"

RNN可能生成：

"在一个遥远的森林里，住着一只长颈鹿。"
"在一个遥远的森林里，阳光透过树叶洒下斑驳的光影。"
"在一个遥远的森林里，探险家们发现了一个神秘的洞穴。"

5. RNN的优缺点

5.1 RNN的优势

理解上下文 ：能记住之前的词，理解完整意思
处理变长序列 ：可以处理不同长度的输入
参数效率高 ：相比其他模型，用较少参数就能记住历史信息

5.2 RNN的局限

计算缓慢 ：必须按顺序处理，难以并行加速
长距离依赖弱 ：虽然有LSTM/GRU改进，但对非常长的文本仍会遗忘
训练不稳定 ：容易出现梯度爆炸或消失问题

6. RNN在AI发展史上的位置

RNN是深度学习发展的重要里程碑：

2010年代初期：RNN开始在语音识别和机器翻译领域大放异彩
2014-2015年：LSTM和GRU解决了RNN的许多训练难题
2017年以后：Transformer架构（如GPT、BERT）逐渐取代RNN在许多任务中的地位
今天：RNN仍然是理解序列数据的重要基础，为现代大语言模型铺平了道路

7. 小结：RNN的核心思想

RNN最核心的理念很简单但强大：将过去的信息带入当前的决策中 。就像人类理解语言时会结合上下文一样，RNN通过循环连接，让AI也能"记住"之前的对话内容。

虽然现在有了更强大的模型如Transformer，但理解RNN仍然是掌握现代AI语言模型的基础。它教会我们：在语言中，上下文就是一切 。

菜单

分享

循环神经网络(RNN)：让AI记住你说过的话

1. 什么是RNN？它和普通神经网络有什么区别？

1.1 前馈神经网络：健忘的助手

1.2 RNN：有记忆力的助手

2. RNN如何"记住"信息？

2.1 一个小例子

3. RNN的记忆难题：太长的对话会遗忘

3.1 解决方案：LSTM和GRU

4. 生成文本：RNN的创作能力

4.1 生成示例

5. RNN的优缺点

5.1 RNN的优势

5.2 RNN的局限

6. RNN在AI发展史上的位置

7. 小结：RNN的核心思想

Frp 实现公网访问内网 Halo 服务

循环神经网络(RNN)：让AI记住你说过的话

从零理解Transformer语言模型

语言的概率世界：统计方法如何理解我们的语言

语言模型的解码艺术：从概率到文本

思维链（Chain-of-Thought）

Prompt 工程简介

上下文学习（ICL）