MiniMax Voice

声音设计声音克隆可复用声音 ID

APIXO 上的 MiniMax 声音服务通过两种不同的工作流创建可复用的自定义声音 ID：通过文本描述的“声音设计”(Voice Design) 和通过单段音频的“声音克隆”(Voice Clone)。“声音设计”包含一个必要的声音预览环节，而“声音克隆”在提供预览文本时也可以返回预览音频。最终生成的声音 ID 可通过独立的 MiniMax Speech 2.8 接口用于后续的文字转语音生成。

APIXO 模式

设计 / 克隆

价格

$0.50 / 次请求

结果

可复用声音 ID

克隆输入

一个音频 URL

可用性

已在 APIXO 上线

正在加载工作区...

MiniMax Voice 模型 API 费率结构

MiniMax Voice 按每个被接受的自定义声音创建请求计费。“设计”和“克隆”工作流使用相同的 APIXO 后端统一定价。

声音设计

计费依据

已接受创建请求

APIXO 价格

$0.50 / request

声音克隆

计费依据

已接受创建请求

APIXO 价格

$0.50 / request

模式	计费依据	APIXO 价格
声音设计	已接受创建请求	$0.50 / request
声音克隆	已接受创建请求	$0.50 / request

常见费用示例

示例：3 次 MiniMax 声音设计请求 = 3 x $0.50 = $1.50。

正在检查 API 访问权限...

登录以领取免费积分并使用此模型进行创作。

与 AI 集成

复制一段提示词，让您的 AI 助手安装 APIXO MCP、读取实时 schema 并将此模型接入您的应用。

接口地址

创建任务

POSThttps://api.apixo.ai/api/v1/generateTask/minimax-voice

轮询状态

GEThttps://api.apixo.ai/api/v1/statusTask/minimax-voice?taskId={taskId}

请求体

request_type

async

通过 callback_url 使用回调以实现 Webhook。

input

对象

模式、提示词、参考图、尺寸、时长和音频设置。

request_type必填

类型select

使用异步模式轮询任务状态 (poll statusTask)，或使用回调模式在结果就绪时接收 webhook 通知。async · callback

callback_url有条件的

类型text

用于接收回调通知的公开 HTTPS URL。仅限 request_type=callback

mode必填

类型select

选择生成后端版本。design · clone

voice_id_prefix必填

类型text

供 MiniMax 生成最终可复用 voice_id 的前缀。请使用字母和数字，至少 6 个字符，并以字母开头。

prompt有条件的

类型string

设计模式下为必填项。请描述口音、音调、年龄、语速和使用场景。仅限 mode=design

preview_text有条件的

类型string

用于预览所创声音的文本。设计模式下限制为 500 个字符。

need_noise_reduction有条件的

类型boolean

为克隆参考音频启用降噪功能。仅限 mode=clone

need_volume_normalization有条件的

类型boolean

克隆前将参考音频的音量标准化。仅限 mode=clone

accuracy有条件的

类型slider

可选的克隆准确度控制，范围 0 到 1。仅限 mode=clone

language_boost有条件的

类型select

用于克隆识别的可选语言提示。auto · English · Chinese · Chinese,Yue · Arabic · Russian · Spanish · French · Portuguese · German · Turkish · Dutch · Ukrainian · Vietnamese · Indonesian · Japanese · Italian · Korean · Thai · Polish · Romanian · Greek · Czech · Finnish · Hindi仅限 mode=clone

参数	类型	必填项	描述
`request_type`	select	必填	使用异步模式轮询任务状态 (poll statusTask)，或使用回调模式在结果就绪时接收 webhook 通知。async · callback
`callback_url`	text	有条件的	用于接收回调通知的公开 HTTPS URL。仅限 request_type=callback
`mode`	select	必填	选择生成后端版本。design · clone
`voice_id_prefix`	text	必填	供 MiniMax 生成最终可复用 voice_id 的前缀。请使用字母和数字，至少 6 个字符，并以字母开头。
`prompt`	string	有条件的	设计模式下为必填项。请描述口音、音调、年龄、语速和使用场景。仅限 mode=design
`preview_text`	string	有条件的	用于预览所创声音的文本。设计模式下限制为 500 个字符。
`need_noise_reduction`	boolean	有条件的	为克隆参考音频启用降噪功能。仅限 mode=clone
`need_volume_normalization`	boolean	有条件的	克隆前将参考音频的音量标准化。仅限 mode=clone
`accuracy`	slider	有条件的	可选的克隆准确度控制，范围 0 到 1。仅限 mode=clone
`language_boost`	select	有条件的	用于克隆识别的可选语言提示。auto · English · Chinese · Chinese,Yue · Arabic · Russian · Spanish · French · Portuguese · German · Turkish · Dutch · Ukrainian · Vietnamese · Indonesian · Japanese · Italian · Korean · Thai · Polish · Romanian · Greek · Czech · Finnish · Hindi仅限 mode=clone

文件参数 (URL 数组)

audio_urls[mode=clone]克隆模式下为必填项。请上传一个公开的 MP3、M4A 或 WAV 参考音频文件。仅限 mode=clone

示例 (cURL)

curl -X POST "https://api.apixo.ai/api/v1/generateTask/minimax-voice" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "request_type": "async",
    "input": {
      "mode": "design",
      "voice_id_prefix": "apixod72644139",
      "prompt": "A warm, confident product narrator voice for SaaS demos. Clear American English articulation, natural pacing, friendly energy, polished but not overly corporate.",
      "preview_text": "Welcome to APIXO. This MiniMax Voice API example designs a reusable custom voice for product narration and customer-facing audio."
    }
  }'

完整 API 文档

能力

创建可复用 MiniMax 语音的两种途径

文本描述的声音设计

无需提供源音频，仅需描述所需的口音、听起来的年龄、音调、语速、活力和预期用途。MiniMax 会生成一个自定义声音并朗读提供的预览文本，以便评估结果。

单片段声音克隆

克隆模式通过一个公开的参考音频 URL 派生出一个可复用的声音身份。该录音作为说话人的音源，而不是用于转换或配音的语音内容。

可复用语音资产

两种工作流都返回一个 MiniMax 语音 ID，而不仅仅是完成的音频文件。当需要一个重复出现的旁白或角色时，该标识符可以被存储并在兼容的下游合成请求中选用。

合成前预览

声音设计 (Voice Design) 需要预览文本，并会返回音频以供评估生成的声音。声音克隆 (Voice Clone) 模式在提供可选的预览文本时也能生成预览音频，使团队能在广泛使用合成声音前对结果进行审核。

克隆优化控制

APIXO 为克隆参考音频提供了可选的降噪和音量归一化功能。当授权录音的音量不一致或存在可处理的背景噪音时，这些控制功能可以改善源文件预处理的效果。

识别引导

克隆模式包含语言提示和可调节的准确度控制。语言提示有助于识别参考语音，而准确度控制则允许应用程序在 APIXO 支持的范围内调整所需的克隆效果。

创建模式

设计原创声音或克隆授权说话人

根据书面简介设计声音

提供声音描述、预览文本和有效的前缀标识符。此模式无需真人录音，而是根据您所要求的特征创造声音，因此非常适合虚构角色和品牌旁白。

无音频输入

通过单段录音克隆声音

提供一个您有权复制其声音的说话者的公开 MP3、M4A 或 WAV 文件 URL。可选的音频清理、识别和准确性控制功能可在 APIXO 返回可复用的克隆声音 ID 之前对源音频进行预处理。如需音频样本进行验证，请提供可选的预览文本。

参考音频

规格

APIXO 上的 MiniMax 声音输入

每种模式都有不同的要求，应独立实现。

描述与预览

设计输入

1–500 字符

设计预览

仅限一个 URL

克隆输入

MP3 / M4A / WAV

克隆格式

0–1

克隆准确度

字母开头 · 6个以上字符

声音 ID 前缀

应用场景

为生产系统构建可复用语音

品牌音频

原创品牌旁白

根据温暖度、权威性、语速、年龄和口音等特征设计声音，然后通过代表性预览进行验证。生成的 ID 可用于产品导览、功能讲解和营销活动旁白，而无需复制真实人物的声音。

授权人才

授权演讲人工作流

根据适当的同意和使用条款，从清晰的录音中创建一个可复用的声音。这可以将经批准的旁白员或表演者的声音扩展到本地化脚本和重复性内容中，同时明确保留源授权。

互动媒体

重复角色语音

为游戏角色、学习伴侣、数字主持或虚拟助手生成独特的声音。将返回的声音 ID 与角色元数据一同存储，然后在需要生成新对话时使用独立的语音合成接口。

可用性

一致的朗读音色

为教育材料、界面引导或无障碍阅读体验建立一个熟悉的自定义声音。在下游的语音合成中，请仔细检查发音和情感表达，尤其是在脚本语言发生变化或包含专业术语时。

说明与常见问题

声音创建、激活与权限

重要说明

MiniMax Voice 用于创建可重复使用的声音资产；它不提供最终的文字转语音旁白生成功能。

设计模式需要声音描述、预览文本和有效的 voice ID 前缀。

克隆模式需要一个公开可访问的 MP3、M4A 或 WAV 参考音频 URL。

新创建的语音如果在七天内未使用于后续合成，可能会变为不可用状态。

APIXO 建议在创建后约十秒开始检查状态，但实际处理时间可能会有所不同。

请仅克隆您有权处理和复制的声音；成功创建并不代表已获得同意或许可商业权利。

常见问题解答

“设计”模式通过书面描述和预览脚本创建原创的自定义声音。“克隆”模式则从单个参考录音中派生声音。这两种模式需要不同的输入，但都会返回一个可重复使用的 MiniMax 声音 ID。

不会。该接口用于创建和预览一个可重复使用的声音资产。当您需要合成完整的旁白、对话或应用语音时，请将它返回的 voice ID 传递给 APIXO 独立的 MiniMax Speech 2.8 接口。

对于每次成功受理的声音设计 (Voice Design) 或声音克隆 (Voice Clone) 创建请求，APIXO 将收取 $0.50。后续的文字转语音生成是独立的操作，将按照所选 MiniMax Speech 2.8 版本的字符计费标准收费。

请使用一段清晰、经授权且专注于单个说话者的录音。音乐、人声重叠、长时间静音、强烈回声、音频削波和嘈杂的背景噪声都可能削弱可用的说话人信号，即使文件在技术上被系统接受。

克隆模式为支持的识别上下文提供语言提示，兼容的 MiniMax 合成模型或许可以跨语言复用自定义声音 ID。但口音、发音、身份特征和情感可能会发生变化，因此跨语言生成的结果需要人工审核。

探索其他模型

探索更多 AI 模型，赋能您的创意工作流

查看所有模型

MiniMax

MiniMax Speech 2.8

MiniMax Speech 2.8 已在 APIXO 上线，支持音频。该模型页面将示例、创作控件、定价和结果整合到一个专注的工作区中。

音频新建

$0.06/1000 chars

suno

Suno V5

Suno V5 已在 APIXO 上线，支持音频。该模型页面将示例、创作控件、定价和结果整合到一个专注的工作区中。

音频新建

$0.12/audio

MiniMax Voice

使用 MiniMax Voice 创作

MiniMax Voice 模型 API 费率结构

请求

在生成旁白前创建声音资产

创建可复用 MiniMax 语音的两种途径

文本描述的声音设计

单片段声音克隆

可复用语音资产

合成前预览

克隆优化控制

识别引导

设计原创声音或克隆授权说话人

根据书面简介设计声音

通过单段录音克隆声音

APIXO 上的 MiniMax 声音输入

为生产系统构建可复用语音

原创品牌旁白

授权演讲人工作流

重复角色语音

一致的朗读音色

声音创建、激活与权限

重要说明

常见问题解答

“设计”和“克隆”模式有什么区别？

MiniMax Voice 会直接生成最终旁白吗？

APIXO 上的 MiniMax Voice 如何定价？

什么样的录音适合用于声音克隆？

克隆的声音能说其他语言吗？

探索其他模型

MiniMax Speech 2.8

Suno V5