概览

OpenRoute 支持除文本之外的多种输入模态，允许您通过我们的统一 API 向兼容模型发送图像、PDF 和音频文件。这为各种用例提供了丰富的多模态交互。

支持的模态

图像

向具有视觉能力的模型发送图像进行分析、描述、OCR 等。OpenRoute 支持多种图像格式以及基于 URL 和 base64 编码的图像。

了解更多关于图像输入 →

图像生成

使用具有图像输出功能的 AI 模型从文本提示生成图像。OpenRoute 支持各种图像生成模型，可以根据您的描述创建高质量图像。

了解更多关于图像生成 →

PDF

使用 OpenRoute 上的任何模型处理 PDF 文档。我们的智能 PDF 解析系统提取文本并处理基于文本和扫描的文档。

了解更多关于 PDF 处理 →

音频

向具有语音能力的模型发送音频文件进行转录、分析和处理。OpenRoute 支持常见音频格式，并自动路由到兼容模型。

了解更多关于音频输入 →

开始使用

所有多模态输入都使用相同的 /api/v1/chat/completions 端点和 messages 参数。不同的内容类型在消息内容数组中指定：

图像：使用 image_url 内容类型
PDF：使用带有 PDF 数据的 file 内容类型
音频：使用 input_audio 内容类型

您可以在单个请求中组合多种模态，可以发送的文件数量因提供商和模型而异。

模型兼容性

并非所有模型都支持每种模态。OpenRoute 会根据您的请求内容自动过滤可用模型：

视觉模型：图像处理所需
文件兼容模型：可以原生处理 PDF 或通过我们的解析系统
音频能力模型：音频输入处理所需

使用我们的模型页面查找支持您所需输入模态的模型。

输入格式支持

OpenRoute 支持多模态输入的 直接 URL 和 base64 编码数据：

URL（推荐用于公开内容）

图像：https://example.com/image.jpg
PDF：https://example.com/document.pdf
音频：不支持通过 URL（仅 base64）

Base64 编码（本地文件必需）

图像：data:image/jpeg;base64,{base64_data}
PDF：data:application/pdf;base64,{base64_data}
音频：带有格式规范的原始 base64 字符串

URL 对于大文件更高效，因为它们不需要本地编码并减少请求负载大小。对于本地文件或内容不可公开访问时，需要 base64 编码。

常见问题

Last updated on

OpenRoute 支持除文本之外的多种输入模态，允许您通过我们的统一 API 向兼容模型发送图像、PDF 和音频文件。这为各种用例提供了丰富的多模态交互。

支持的模态

图像

向具有视觉能力的模型发送图像进行分析、描述、OCR 等。OpenRoute 支持多种图像格式以及基于 URL 和 base64 编码的图像。

了解更多关于图像输入 →

图像生成

使用具有图像输出功能的 AI 模型从文本提示生成图像。OpenRoute 支持各种图像生成模型，可以根据您的描述创建高质量图像。

了解更多关于图像生成 →

PDF

使用 OpenRoute 上的任何模型处理 PDF 文档。我们的智能 PDF 解析系统提取文本并处理基于文本和扫描的文档。

了解更多关于 PDF 处理 →

音频

向具有语音能力的模型发送音频文件进行转录、分析和处理。OpenRoute 支持常见音频格式，并自动路由到兼容模型。

了解更多关于音频输入 →

开始使用

所有多模态输入都使用相同的 /api/v1/chat/completions 端点和 messages 参数。不同的内容类型在消息内容数组中指定：

图像：使用 image_url 内容类型
PDF：使用带有 PDF 数据的 file 内容类型
音频：使用 input_audio 内容类型

您可以在单个请求中组合多种模态，可以发送的文件数量因提供商和模型而异。

模型兼容性

并非所有模型都支持每种模态。OpenRoute 会根据您的请求内容自动过滤可用模型：

视觉模型：图像处理所需
文件兼容模型：可以原生处理 PDF 或通过我们的解析系统
音频能力模型：音频输入处理所需

使用我们的模型页面查找支持您所需输入模态的模型。

输入格式支持

OpenRoute 支持多模态输入的 直接 URL 和 base64 编码数据：

URL（推荐用于公开内容）

图像：https://example.com/image.jpg
PDF：https://example.com/document.pdf
音频：不支持通过 URL（仅 base64）

Base64 编码（本地文件必需）

图像：data:image/jpeg;base64,{base64_data}
PDF：data:application/pdf;base64,{base64_data}
音频：带有格式规范的原始 base64 字符串

URL 对于大文件更高效，因为它们不需要本地编码并减少请求负载大小。对于本地文件或内容不可公开访问时，需要 base64 编码。

概览

支持的模态

图像

图像生成

PDF

音频

开始使用

模型兼容性

输入格式支持

URL（推荐用于公开内容）

Base64 编码（本地文件必需）

常见问题

On this page

概览

支持的模态

图像

图像生成

PDF

音频

开始使用

模型兼容性

输入格式支持

URL（推荐用于公开内容）

Base64 编码（本地文件必需）

常见问题

On this page

概览

我可以在一个请求中混合不同的模态吗？

多模态内容如何定价？

视频支持如何？

On this page

概览

我可以在一个请求中混合不同的模态吗？

多模态内容如何定价？

视频支持如何？

On this page