1. 什么是上下文学习

1.1 基本概念

上下文学习（In-Context Learning, ICL）是一种让大语言模型通过特定提示（Prompt）理解并学习新任务的方法。想象你正在教一个朋友做一道新菜，你不需要让他去上烹饪学校，而是给他看几个做菜的步骤示例，他就能学会。上下文学习就是这个原理——通过在输入中提供任务说明和几个示例，让模型"现场学习"如何完成任务，而无需重新训练。

在上下文学习中，我们会构造一个包含任务描述和几个示例的提示，这些示例展示了输入和期望输出的关系。大语言模型通过理解这些示例中的模式，学会如何解决类似的新问题。这种方法非常实用，因为它让我们能快速适应各种任务，而不需要为每个任务训练或微调模型。

1.2 上下文学习的形式

根据提供示例数量的不同，上下文学习可以分为三种形式：

零样本（Zero-shot）学习：只提供任务说明，不给任何示例。就像告诉别人"请判断下面句子的情感是积极还是消极"，然后直接提问。这种方法依赖于模型已有的知识，适合简单任务，但对复杂任务效果可能不佳。
单样本（One-shot）学习：提供一个示例。就像给人看一个例子："小猫玩毛线球。→ 积极"，然后让他判断新句子的情感。这种方法模拟人类"举一反三"的能力，但效果很大程度上取决于这个单一示例的代表性。
少样本（Few-shot）学习：提供几个（通常是3-10个）示例。就像给人看多个情感判断的例子，包括积极和消极的情况，然后让他判断新句子。这种方法通常效果最好，但随着示例增多，计算成本也会上升。

为什么上下文学习有效？研究表明，大语言模型在预训练阶段已经学习了大量概念和模式。当我们提供示例时，这些示例就像"锚点"，帮助模型快速定位到相关的知识，从而解决新问题。例如，当看到情感分类的示例时，模型会"想起来"它在预训练时学到的情感表达模式，从而应用到新句子上。

2. 如何选择好的示例

2.1 相似性和多样性

在上下文学习中，示例的质量对结果影响很大。选择好的示例需要考虑两个关键因素：

相似性：选择与当前问题在内容、结构或语义上相似的示例。比如，如果要判断一段关于动物的文本情感，最好选择也是关于动物的示例，而不是关于天气或科技的内容。相似的示例能让模型更容易理解当前问题的特点。
多样性：确保示例覆盖任务的不同方面。在情感分析中，应包含不同类型的积极和消极表达；在数学问题中，应包含不同解题思路的例子。多样化的示例帮助模型全面理解任务，避免过度简化或偏向某一特定类型的问题。

理想的示例集应该在相似性和多样性之间取得平衡：既与当前问题相关，又能展示任务的多面性。

2.2 三种示例选择方法

根据如何平衡相似性和多样性，有三种主要的示例选择方法：

直接检索：计算候选示例与当前问题的相似度，选择最相似的几个。这种方法简单有效，但可能导致选择的示例过于相似，缺乏多样性。就像只找口味最像的几道菜来做参考，可能会错过其他重要的烹饪技巧。
聚类检索：先将所有候选示例分成几个类别（或"簇"），然后从每个类别中选择与问题最相似的一个示例。这种方法保证了多样性，但可能会包含一些与当前问题不太相关的示例。就像从不同菜系（中餐、西餐、日料）各选一道代表菜，虽然多样性好，但可能有些菜系与你想学的菜完全无关。
迭代检索：先选择一个最相关的示例，然后基于已选示例和问题，动态选择下一个最互补的示例，如此迭代直到选够所需数量。这种方法能更好地平衡相似性和多样性，但计算更复杂。就像先选一道最接近你想学的菜，然后选一道能补充第一道菜所缺技巧的菜，逐步构建一个全面的学习集。

3. 影响上下文学习效果的因素

3.1 预训练数据的影响

预训练数据是上下文学习能力的基础，影响主要体现在三方面：

领域丰富度：在多种领域数据上训练的模型，上下文学习能力更强。如果模型只在单一领域（比如只在医学文献上）训练，即使这个领域与目标任务高度相关，也可能不如在多样化数据上训练的模型表现好。
任务多样性：预训练数据中包含的任务类型越丰富，模型的适应能力就越强。就像一个人接触过多种工作，更容易适应新岗位一样。
数据分布特性：预训练数据中存在罕见类别和突发性分布（某些模式反复出现）有助于增强模型的上下文学习能力，使它更能处理少见或新颖的输入。

3.2 模型本身的影响

模型特性对上下文学习效果有显著影响：

模型规模：通常，参数规模达到一定阈值（通常是亿级别以上）的模型才能有效进行上下文学习。一般来说，模型越大，上下文学习能力越强。目前最小的具有上下文学习能力的模型是拥有5亿参数的Qwen2-0.5B。
模型架构和训练策略：不同的模型架构（如Transformer的不同变体）和训练方法也会影响上下文学习的效果。一些专为推理设计的架构可能在特定任务上表现更好。

3.3 演示示例的影响

除了选择方法，示例本身的特点也很重要：

示例格式：不同任务需要不同格式的示例。简单任务只需输入和输出，而复杂推理任务（如数学问题）需要包含中间推理步骤的示例，这就是"思维链"技术。
输入-输出映射的正确性：示例中的答案必须正确。错误的示例会误导模型，尤其是大型模型对错误映射更敏感。
示例数量和顺序：增加示例数量通常能提升性能，但收益会递减。生成任务（如文本创作）比分类任务更能从更多示例中受益。示例的排列顺序也很重要，不同顺序可能导致完全不同的结果，且最佳顺序往往因模型而异。
任务说明质量：清晰、明确的任务说明能显著提升上下文学习效果。好的任务说明应使用明确动词、具体名词，保持简洁，并在提示的开头和结尾重复关键信息。

4. 实际例子说明

想象你正在教一个AI助手判断小浣熊相关句子的情感。让我们看看不同上下文学习方法的效果：

零样本学习示例：

判断下面句子的情感为积极还是消极。
小浣熊连续吃了20包烧烤味的干脆面，撑得肚子疼。

这种情况下，AI可能仅凭常识判断，但无法确定"痛并快乐着"这类复杂情感该如何归类。

单样本学习示例：

判断下面句子的情感为积极还是消极。
示例：小浣熊吃了一包麻辣味的干脆面，辣得肚子疼。→ 消极
待判断句子：小浣熊连续吃了20包烧烤味的干脆面，撑得肚子疼，痛并快乐地在地上打滚。

这里只有一个示例，AI可能会过度简化，认为只要肚子疼就是消极，忽略了"痛并快乐着"的复杂情感。

少样本学习示例（精心选择）：

判断下面句子的情感为积极还是消极。
示例1：浣熊爸爸背了一箱干脆面走来，小浣熊手舞足蹈迎接爸爸。 → 积极
示例2：小浣熊吃了一包麻辣味的干脆面，辣得肚子疼，哭个不停。 → 消极
示例3：小浣熊吃了一包烧烤味的干脆面，脸上露出了满意的笑容。 → 积极
示例4：小浣熊吃了太多干脆面，肚子不舒服，但仍然很开心尝试了新口味。 → 积极

待判断句子：小浣熊连续吃了20包烧烤味的干脆面，撑得肚子疼，痛并快乐地在地上打滚。

这个精心设计的提示包含了多样的示例，特别是示例4展示了即使有负面体验（肚子不适），整体情感仍可以是积极的。这样的上下文能帮助AI更准确地理解复杂情感，很可能正确判断这个句子为"积极"，因为小浣熊虽然肚子疼，但享受了吃干脆面的过程。

通过这个例子，我们可以看到上下文学习的力量：无需重新训练模型，仅通过设计良好的提示，就能让AI理解并正确处理复杂的情感判断任务。这正是上下文学习在实际应用中的价值——高效、灵活地让大模型适应各种新任务。

菜单

分享

上下文学习（ICL）

1. 什么是上下文学习

1.1 基本概念

1.2 上下文学习的形式

2. 如何选择好的示例

2.1 相似性和多样性

2.2 三种示例选择方法

3. 影响上下文学习效果的因素

3.1 预训练数据的影响

3.2 模型本身的影响

3.3 演示示例的影响

4. 实际例子说明

零样本学习示例：

单样本学习示例：

少样本学习示例（精心选择）：

Frp 实现公网访问内网 Halo 服务

循环神经网络(RNN)：让AI记住你说过的话

从零理解Transformer语言模型

语言的概率世界：统计方法如何理解我们的语言

语言模型的解码艺术：从概率到文本

思维链（Chain-of-Thought）

Prompt 工程简介

上下文学习（ICL）