协议修订: 2025-06-18
模型上下文协议(MCP)为服务器通过客户端向语言模型请求LLM采样(“补全”或“生成”)提供了一种标准化的方式。这种流程允许客户端保持对模型访问、选择和权限的控制,同时使服务器能够利用人工智能能力——而无需服务器API密钥。服务器可以请求基于文本、音频或图像的交互,并可选择性地在其提示中包含来自MCP服务器的上下文。

用户交互模型

MCP中的采样允许服务器实现代理行为,通过让LLM调用在其他MCP服务器功能中嵌套发生。 实现方可以自由地通过任何适合其需求的接口模式来暴露采样功能——协议本身不强制要求任何特定的用户交互模型。
出于信任、安全和保障的考虑,应当 (SHOULD) 始终有人工审核环节,并有权拒绝采样请求。应用程序应当 (SHOULD)
  • 提供便于直观审查采样请求的UI
  • 允许用户在发送前查看和编辑提示
  • 在交付前呈现生成的响应以供审查

功能

支持采样的客户端必须 (MUST)初始化期间声明 sampling 能力。
{
  "capabilities": {
    "sampling": {}
  }
}

协议消息

创建消息

要请求语言模型生成,服务器会发送一个 sampling/createMessage 请求: 请求:
{
  "jsonrpc": "2.0",
  "id": 1,
  "method": "sampling/createMessage",
  "params": {
    "messages": [
      {
        "role": "user",
        "content": {
          "type": "text",
          "text": "What is the capital of France?"
        }
      }
    ],
    "modelPreferences": {
      "hints": [
        {
          "name": "claude-3-sonnet"
        }
      ],
      "intelligencePriority": 0.8,
      "speedPriority": 0.5
    },
    "systemPrompt": "You are a helpful assistant.",
    "maxTokens": 100
  }
}
响应
{
  "jsonrpc": "2.0",
  "id": 1,
  "result": {
    "role": "assistant",
    "content": {
      "type": "text",
      "text": "The capital of France is Paris."
    },
    "model": "claude-3-sonnet-20240307",
    "stopReason": "endTurn"
  }
}

消息流

数据类型

消息

采样消息可以包含

文本内容

{
  "type": "text",
  "text": "The message content"
}

图像内容

{
  "type": "image",
  "data": "base64-encoded-image-data",
  "mimeType": "image/jpeg"
}

音频内容

{
  "type": "audio",
  "data": "base64-encoded-audio-data",
  "mimeType": "audio/wav"
}

模型偏好

MCP中的模型选择需要仔细的抽象,因为服务器和客户端可能使用不同的AI提供商,其模型产品也各不相同。服务器不能简单地按名称请求特定模型,因为客户端可能无法访问该确切模型,或者可能更喜欢使用另一家提供商的等效模型。 为了解决这个问题,MCP实现了一个偏好系统,该系统将抽象的能力优先级与可选的模型提示相结合:

能力优先级

服务器通过三个标准化的优先级值(0-1)来表达其需求
  • costPriority: 最小化成本有多重要?值越高,越倾向于选择更便宜的模型。
  • speedPriority: 低延迟有多重要?值越高,越倾向于选择更快的模型。
  • intelligencePriority: 先进能力有多重要?值越高,越倾向于选择能力更强的模型。

模型提示

虽然优先级有助于根据特性选择模型,但 hints 允许服务器建议特定的模型或模型系列
  • 提示被视为可以灵活匹配模型名称的子字符串
  • 多个提示按偏好顺序进行评估
  • 客户端可以 (MAY) 将提示映射到不同提供商的等效模型
  • 提示是建议性的——客户端做出最终的模型选择
例如
{
  "hints": [
    { "name": "claude-3-sonnet" }, // Prefer Sonnet-class models
    { "name": "claude" } // Fall back to any Claude model
  ],
  "costPriority": 0.3, // Cost is less important
  "speedPriority": 0.8, // Speed is very important
  "intelligencePriority": 0.5 // Moderate capability needs
}
客户端处理这些偏好,从其可用选项中选择一个合适的模型。例如,如果客户端无法访问Claude模型但有Gemini,它可能会根据相似的能力将sonnet提示映射到 gemini-1.5-pro

错误处理

客户端应当 (SHOULD) 对常见的失败情况返回错误: 错误示例:
{
  "jsonrpc": "2.0",
  "id": 1,
  "error": {
    "code": -1,
    "message": "User rejected sampling request"
  }
}

安全注意事项

  1. 客户端应当 (SHOULD) 实现用户批准控制
  2. 双方应当 (SHOULD) 验证消息内容
  3. 客户端应当 (SHOULD) 尊重模型偏好提示
  4. 客户端应当 (SHOULD) 实现速率限制
  5. 双方必须 (MUST) 适当地处理敏感数据