標準にはない合成音声を利用する、SSMLを利用して発話を制御する 標準にはない合成音声を利用する、SSMLを利用して発話を制御する

標準にはない合成音声を利用する、SSMLを利用して発話を制御する

最終更新日:

UneeQ Creator Platformに準備されている合成音声(Text-to-Speech/TTS)以外を利用する事ができますが、独自に接続する為の仕組みが必要です。外部TTSと接続したい場合はデジタルヒューマン株式会社のプロフェッショナルサービスをご利用ください。

デジタルヒューマン株式会社に問い合わせる

 

UneeQデジタルヒューマンでは下記のTTSをサポートしています。

UneeQ Creator Platform
    • WaveNet
      ja-JP-Wavenet-A(女性) 
      ja-JP-Wavenet-B(女性)

Google Custom Voiceはサポートしておりませんが、開発にて対応する事が出来ます。弊社までお問い合わせください。

男性の声 ja-JP-Wavenet-C / ja-JP-Wavenet-D は対応しておりますが、UneeQ Creator PlatformのUIからは選択できません。無償で設定できますので、弊社までご依頼ください。

    • Mizuki
デジタルヒューマン株式会社 オリジナル

上記に加えて、下記の国産TTSプロバイダー様の合成音声を利用する事が出来ます。

  • AITalk(エーアイトーク)
    https://www.ai-j.jp

    対応話者:のぞみ、すみれ、まき、かほ、あかり、ななこ、れいな、せいじ、ひろし、おさむ、たいち、こうたろう、あんず、ゆうとちひろ、のぞみ (感情対応) 、まき (感情対応) 、れいな (感情対応) 、たいち (感情対応)

    みやび(関西弁)、やまと(関西弁)

 

  • ReadSpeaker(リードスピーカー, 旧VoiceText)
    https://readspeaker.jp
    show、haruka、hikari、takeru、akira、ryo、misaki、sayaka、risa、santa、bear、boy、girl

 

  • その他のTTSプロバイダー
    上記以外のTTSプロバイダーでも接続が可能です。開発が伴いますのでお問い合わせください。

 

SSMLを利用して会話を制御する

音声合成マークアップ言語(Speech Synthesis Markup Language / SSML)を利用すれば、よりデジタルヒューマンの声色や発声を制御する事が出来ます。

SSML は、XML ベースのマークアップ言語であり、これにより、開発者はデジタルヒューマンのTTS(Text-to-Speech)を使用して、入力テキストを合成音声に変換する方法を指定することができます。

 

プレーンテキストと比較して、SSML では、開発者が音声合成出力のピッチ、読み方、読み上げ速度、音量などを微調整できます。 通常の句読点は、ピリオドの後の一時停止、または文が疑問符で終わるときの正しいイントネーションの使用など、自動的に処理されます。

 

すべてのTTSプロバイダが、すべてのSSMLをサポートしているわけではなく、ほとんどのプロバイダはSSML仕様で定義されているタグの"サブセット"しかサポートしていません。TTSプロバイダのSSMLガイドラインに従って設定してください。

 

各社のSSML仕様ページ

 

SSMLを使用している場合は、<speak>タグの中にビヘイビアタグが含まれていることを確認する必要があります。

<speak>
<uneeq:happy>Good morning! What can I help you with today?</uneeq:happy>
</speak>

<uneeq:behavior>タグと、TTSプロバイダがサポートしているSSMLタグと組み合わせることで、デジタルヒューマンの行動や発話に複数の効果を適用することができます。

 

Google TTSを使用する場合

Google TTSを使用している場合、<uneeq:behavior>タグが他のSSMLタグの中に入れ子になっていないことを確認してください。さらに、<uneeq:behavior>タグは、<speak>タグの後ろに入れることが必要です。

Google TTSを使ったSSMLの正しい使い方

<speak>
<uneeq:excited>
<prosody rate="high" pitch="+2st">This is how I speak when I’m excited!</prosody>
</uneeq:excited>
<uneeq:happy>
<s>This is how I speak when I’m happy.</s>
</uneeq:happy>
</speak>
Google TTSを使ったSSMLの間違った使い方

<speak>
<s>
<uneeq:excited>This is how I speak when I’m excited!</uneeq:excited>
</s>
<s>
<uneeq:happy>This is how I speak when I’m happy.</uneeq:happy>
</s>
</speak>

 

その他のTTSプロバイダー

Google TTSを使ったSSMLの間違った使い方が必要な場合があります。

正しい使い方 例1
<speak>
<amazon:domain name="conversational">
<uneeq:excited>This is how I speak when I’m excited!</uneeq:excited>
<uneeq:happy>This is how I speak when I’m happy</uneeq:happy>
</amazon:domain>
</speak>
正しい使い方 例2
<speak>
<s>
<uneeq:excited>This is how I speak when I’m excited!</uneeq:excited>
</s>
<s>
<uneeq:happy>This is how I speak when I’m happy.</uneeq:happy>
</s>
</speak>