采样 - 模型上下文协议

协议修订: 2025-06-18

模型上下文协议（MCP）为服务器通过客户端向语言模型请求LLM采样（“补全”或“生成”）提供了一种标准化的方式。这种流程允许客户端保持对模型访问、选择和权限的控制，同时使服务器能够利用人工智能能力——而无需服务器API密钥。服务器可以请求基于文本、音频或图像的交互，并可选择性地在其提示中包含来自MCP服务器的上下文。

用户交互模型

MCP中的采样允许服务器实现代理行为，通过让LLM调用在其他MCP服务器功能中嵌套发生。实现方可以自由地通过任何适合其需求的接口模式来暴露采样功能——协议本身不强制要求任何特定的用户交互模型。

出于信任、安全和保障的考虑，应当 (SHOULD) 始终有人工审核环节，并有权拒绝采样请求。应用程序应当 (SHOULD)：

提供便于直观审查采样请求的UI
允许用户在发送前查看和编辑提示
在交付前呈现生成的响应以供审查

功能

支持采样的客户端必须 (MUST) 在初始化期间声明 sampling 能力。

{
  "capabilities": {
    "sampling": {}
  }
}

协议消息

创建消息

要请求语言模型生成，服务器会发送一个 sampling/createMessage 请求： 请求：

{
  "jsonrpc": "2.0",
  "id": 1,
  "method": "sampling/createMessage",
  "params": {
    "messages": [
      {
        "role": "user",
        "content": {
          "type": "text",
          "text": "What is the capital of France?"
        }
      }
    ],
    "modelPreferences": {
      "hints": [
        {
          "name": "claude-3-sonnet"
        }
      ],
      "intelligencePriority": 0.8,
      "speedPriority": 0.5
    },
    "systemPrompt": "You are a helpful assistant.",
    "maxTokens": 100
  }
}

响应

{
  "jsonrpc": "2.0",
  "id": 1,
  "result": {
    "role": "assistant",
    "content": {
      "type": "text",
      "text": "The capital of France is Paris."
    },
    "model": "claude-3-sonnet-20240307",
    "stopReason": "endTurn"
  }
}

消息流

数据类型

消息

采样消息可以包含

文本内容

{
  "type": "text",
  "text": "The message content"
}

图像内容

{
  "type": "image",
  "data": "base64-encoded-image-data",
  "mimeType": "image/jpeg"
}

音频内容

{
  "type": "audio",
  "data": "base64-encoded-audio-data",
  "mimeType": "audio/wav"
}

模型偏好

MCP中的模型选择需要仔细的抽象，因为服务器和客户端可能使用不同的AI提供商，其模型产品也各不相同。服务器不能简单地按名称请求特定模型，因为客户端可能无法访问该确切模型，或者可能更喜欢使用另一家提供商的等效模型。为了解决这个问题，MCP实现了一个偏好系统，该系统将抽象的能力优先级与可选的模型提示相结合：

能力优先级

服务器通过三个标准化的优先级值（0-1）来表达其需求

costPriority: 最小化成本有多重要？值越高，越倾向于选择更便宜的模型。
speedPriority: 低延迟有多重要？值越高，越倾向于选择更快的模型。
intelligencePriority: 先进能力有多重要？值越高，越倾向于选择能力更强的模型。

模型提示

虽然优先级有助于根据特性选择模型，但 hints 允许服务器建议特定的模型或模型系列

提示被视为可以灵活匹配模型名称的子字符串
多个提示按偏好顺序进行评估
客户端可以 (MAY) 将提示映射到不同提供商的等效模型
提示是建议性的——客户端做出最终的模型选择

例如

{
  "hints": [
    { "name": "claude-3-sonnet" }, // Prefer Sonnet-class models
    { "name": "claude" } // Fall back to any Claude model
  ],
  "costPriority": 0.3, // Cost is less important
  "speedPriority": 0.8, // Speed is very important
  "intelligencePriority": 0.5 // Moderate capability needs
}

客户端处理这些偏好，从其可用选项中选择一个合适的模型。例如，如果客户端无法访问Claude模型但有Gemini，它可能会根据相似的能力将sonnet提示映射到 gemini-1.5-pro。

错误处理

客户端应当 (SHOULD) 对常见的失败情况返回错误：错误示例：

{
  "jsonrpc": "2.0",
  "id": 1,
  "error": {
    "code": -1,
    "message": "User rejected sampling request"
  }
}

安全注意事项

客户端应当 (SHOULD) 实现用户批准控制
双方应当 (SHOULD) 验证消息内容
客户端应当 (SHOULD) 尊重模型偏好提示
客户端应当 (SHOULD) 实现速率限制
双方必须 (MUST) 适当地处理敏感数据

基础协议

客户端功能

服务器功能

采样

用户交互模型

功能

协议消息

创建消息

消息流

数据类型

消息

文本内容

图像内容

音频内容

模型偏好

能力优先级

模型提示

错误处理

安全注意事项

基础协议

客户端功能

服务器功能

​用户交互模型

​功能

​协议消息

​创建消息

​消息流

​数据类型

​消息

​文本内容

​图像内容

​音频内容

​模型偏好

​能力优先级

​模型提示

​错误处理

​安全注意事项

用户交互模型

功能

协议消息

创建消息

消息流

数据类型

消息

文本内容

图像内容

音频内容

模型偏好

能力优先级

模型提示

错误处理

安全注意事项