微软为Azure认知服务带来了新的语音样式

日新互联网 04-05 4906 0

微软今天宣布在Azure认知服务中推出了新的神经文本语音转换（TTS）功能，其AI内置的API和SDK套件使开发人员能够定制其应用程序和服务的声音以适应其品牌。三种新样式（新闻广播，客户服务和数字助理）中的每种样式都保证了听起来自然的语音，与人类声音的样式和语调相匹配。

“基于强大的基础模型，我们的神经TTS语音非常自然，可靠且富有表现力。通过转移学习，神经性TTS模型可以从不同的说话者那里学习不同的说话风格，从而产生细微的声音，”微软在博客中写道。

新闻广播的声音反映了您可能在电视或广播新闻广播中听到的“专业音调”，也就是说，它不包含任何地区主义痕迹，并且使用标准广播发音，即不掉任何字母的发音形式。微软表示，除了Azure认知服务外，新闻广播风格的声音还包含在Microsoft微信听力文档中，该文件可以朗读Word，PowerPoint和Excel文档，并生成用于在线培训，新闻播客等的音频。它也在Bing移动应用程序中-使用语音搜索功能进行搜时，您将使用新闻广播语音听到新闻摘要。

客户服务风格的语音具有“友好”和“参与”的语调，微软表示，这种语调针对涉及客户支持（例如报告索赔）的方案进行了调整。相比之下，数字助理语音有两种样式，一种是休闲的会话机器人聊天风格，另一种是用于汽车数字助理等应用的专业样式，其有用的语气适合中继天气预报，导航方向，提醒和其他信息。

除了针对特定情况进行了优化的语音样式外，微软今天早上还发布了几种新的情绪样式，可以对其进行调整以表达不同的情绪以适应给定的环境。充满欢乐或同情心，中文为抒情风格，微软将其形容为“衷心”，并最适合阅读散文或诗歌。

新的声音样式提供英语和中文版本，而情感样式提供英语，中文和巴西葡萄牙语版本。Microsoft指出，可以通过Microsoft Speech Studio中的“自定义神经语音”功能来自定义样式，从而使品牌可以构建受益于新方案的独特声音。

微软实际上是与Google 并驾齐驱的。去年，谷歌在其Cloud Text-to-Speech服务中推出了31种新的AI合成的WaveNet语音和24种新的标准语音（使WaveNet语音总数达到57种）。它在亚马逊中还有另一个竞争对手，该竞争对手最近推出了一项服务，即品牌语音（Brand Voice），该服务利用AI来生成自定义代言人，并通过亚马逊的云服务Amazon Polly将文本转换为语音，从而提供多种声音样式和情感样式。

微软为Azure认知服务带来了新的语音样式

微软为Azure认知服务带来了新的语音样式：等您坐沙发呢！

发表评论

边栏标签