LLM API Test

大模型 API 在线调试工具 — 实时预览 JSON，一键发送请求

🤖OpenAI

🧠DeepSeek

连接配置

Base URL 渠道根地址。例如 OpenAI 使用 https://api.openai.com/v1，具体 API 路径由当前接口自动拼接

API Path 当前接口路径。Responses 是 /responses，Compact 是 /responses/compact，Get/Delete/Cancel Response 是 /responses/{response_id} 系列，DeepSeek Chat 是 /chat/completions

API Key 按渠道保存在本地浏览器。请求仍通过 Worker 代理转发

基本参数

/responses/compact 用于压缩长对话上下文。常用方式是填写 previous_response_id，也可以用 Input Builder 传入要压缩的 input/output/reasoning/compaction 项。

DELETE /responses/{response_id} 用于删除指定 Response。它没有 JSON body，成功时返回 { "deleted": true }。

POST /responses/{response_id}/cancel 用于取消后台运行的 Response。它没有 JSON body，只能取消 background=true 创建的响应。

演示长对话先由 Responses 生成，再交给 Compact 压缩，最后把 compact 输出作为 Responses 的 input 继续使用。可追踪用例会检查 compact 返回后哪些本地 marker 仍以明文保留。

Model 指定要调用的模型名称，如 gpt-5.4、gpt-5.1、o3-mini 等，切换平台页签会自动填充默认模型

Input Builder 构造 Responses API 的 input。可选择纯文本，或添加多条 message，每条 message 可添加 text/image/file content

高级：手写 / 回填 Input 覆盖

Instructions 系统级指令（类似 system prompt），插入到模型上下文的最前面，优先级高于用户消息中的指令

采样参数

Temperature 控制随机性，范围 0~2，值越高输出越有创造性。OpenAI Responses API 默认为 1

Top P 核采样参数，范围 0~1。模型只考虑概率质量累计达到 top_p 的 token。建议与 temperature 二选一调整

Max Output Tokens 生成内容的最大 token 数上限，包含可见输出和 reasoning tokens

Stop 停止词，遇到这些词会停止生成。多个词用英文逗号分隔

Top Logprobs 返回每个位置最有可能的 token 及其 log 概率，范围 0~20，0 表示不返回

推理参数（Reasoning）— 仅对 o-series / gpt-5 等推理模型生效

Effort 约束推理力度。可选值：none / minimal / low / medium / high / xhigh。gpt-5.1 默认为 none，其他推理模型默认为 medium

Summary 推理过程摘要的详细程度。auto — 自动决定 / concise — 简洁摘要 / detailed — 详细摘要

输出控制（Output Control）

Text Format 输出格式。text — 纯文本 / json_object — 旧版 JSON 模式（不推荐） / json_schema — 结构化输出（推荐）

Verbosity 控制文本输出详略程度。low 更简洁，high 更详细

JSON Schema Name Text Format 为 json_schema 时使用，名称最多 64 字符

JSON Schema Strict 启用 strict 结构化输出，要求模型严格遵循 schema

strict=true

JSON Schema Builder 点击添加字段来构造 object schema；右侧请求体会实时预览

JSON Schema Description 可选，说明结构化输出格式的用途

高级：手写 JSON Schema 覆盖

Truncation 上下文截断策略。disabled — 超出上下文窗口则报 400 错误 / auto — 自动丢弃较早的对话内容以适应窗口

Service Tier 处理优先级。auto — 使用项目设置 / default — 标准 / flex — 弹性处理 / priority — 优先处理

Stream 是否启用流式输出（Server-Sent Events）。开启后响应将以 SSE 事件流的形式逐步返回

开启 SSE 流式响应

Stream Obfuscation 仅 stream=true 时生效。false 可减少 SSE 带宽开销

上下文与复用（Conversation / Prompt / Context）

Conversation ID将响应加入指定 conversation。不能和 previous_response_id 同时使用

Prompt ID复用平台中的 prompt 模板

Prompt Version可选 prompt 模板版本

Background后台运行响应，适合长任务

background=true

Prompt Variables Builder为 prompt 模板添加变量，支持字符串和常见 input_* 对象

高级：手写 Prompt Variables 覆盖

Context Management Builder当前主要用于 compaction：达到阈值时压缩上下文

添加 { type: "compaction" }

高级：手写 Context Management 覆盖

工具调用（Tools / Tool Choice / Include）

高级选项（Advanced）

Previous Response ID 上一轮响应的 ID，用于多轮对话。填入后可以在之前对话的基础上继续交流

Prompt Cache Key 用于优化缓存命中率，相同 key 的相似请求将享受更快的响应速度

Safety Identifier 用于检测滥用行为的用户标识，建议使用用户名的哈希值，最大 64 字符

Max Tool Calls 工具调用的最大总次数（跨所有内置工具），超过此次数的工具调用将被忽略

Prompt Cache Retention 缓存保留策略。in_memory — 内存级缓存 / 24h — 保留最长 24 小时

User旧字段，正在被 safety_identifier 和 prompt_cache_key 替代，仅用于兼容学习

Metadata Builder最多 16 个键值对，key 最大 64 字符，value 最大 512 字符

高级：手写 Metadata 覆盖

Raw Extra JSON高级兜底：合并到最终请求体，可覆盖上方同名字段，用于文档新增参数或实验字段

Store 是否存储响应到 OpenAI 服务器以便后续检索

Parallel Tool Calls 允许模型并行执行多个工具调用

请求体预览

JSON

Token 与价格

响应结果

结构化解读

原始 JSON

Compact 前后对比

对比发送前 input 与 compact 返回 output