多模态
概览
OpenRoute 支持除文本之外的多种输入模态,允许您通过我们的统一 API 向兼容模型发送图像、PDF 和音频文件。这为各种用例提供了丰富的多模态交互。
支持的模态
图像
向具有视觉能力的模型发送图像进行分析、描述、OCR 等。OpenRoute 支持多种图像格式以及基于 URL 和 base64 编码的图像。
图像生成
使用具有图像输出功能的 AI 模型从文本提示生成图像。OpenRoute 支持各种图像生成模型,可以根据您的描述创建高质量图像。
使用 OpenRoute 上的任何模型处理 PDF 文档。我们的智能 PDF 解析系统提取文本并处理基于文本和扫描的文档。
音频
向具有语音能力的模型发送音频文件进行转录、分析和处理。OpenRoute 支持常见音频格式,并自动路由到兼容模型。
开始使用
所有多模态输入都使用相同的 /api/v1/chat/completions
端点和 messages
参数。不同的内容类型在消息内容数组中指定:
- 图像:使用
image_url
内容类型 - PDF:使用带有 PDF 数据的
file
内容类型 - 音频:使用
input_audio
内容类型
您可以在单个请求中组合多种模态,可以发送的文件数量因提供商和模型而异。
模型兼容性
并非所有模型都支持每种模态。OpenRoute 会根据您的请求内容自动过滤可用模型:
- 视觉模型:图像处理所需
- 文件兼容模型:可以原生处理 PDF 或通过我们的解析系统
- 音频能力模型:音频输入处理所需
使用我们的模型页面查找支持您所需输入模态的模型。
输入格式支持
OpenRoute 支持多模态输入的 直接 URL 和 base64 编码数据:
URL(推荐用于公开内容)
- 图像:
https://example.com/image.jpg
- PDF:
https://example.com/document.pdf
- 音频:不支持通过 URL(仅 base64)
Base64 编码(本地文件必需)
- 图像:
data:image/jpeg;base64,{base64_data}
- PDF:
data:application/pdf;base64,{base64_data}
- 音频:带有格式规范的原始 base64 字符串
常见问题
Last updated on