DomoAIが音声機能をアップデート（2026年3月）｜新機能をわかりやすく解説

2026年3月31日

2026年3月19日、Domo AIの音声生成（TTS）機能に関するアップデートが実施されました。

今回の更新では、音声の自然さの向上に加え、感情表現や複数ボイスによる会話生成に対応し、実用性が大きく向上しています。

本記事では、Domo AI最新バージョンを実際に使用し、アップデート内容と使用感をわかりやすく解説します。導入を検討している方や既存ユーザーはぜひ参考にしてみてください。

Domo AIの基本的な使い方や料金、商用利用について詳しく知りたい方は、以下の記事も参考にしてみてください。

今回のアップデートの概要

2026年3月19日に、DomoAIの音声機能に関するアップデートが実施されました。

今回のアップデートでは、TTS（Text to Speach）つまり、テキストから音声を生成する機能が大きく強化されており、より自然な話し方や感情を込めた表現、さらに複数の声による会話形式の音声生成に対応しています。

これまでも音声を生成する機能自体は利用できましたが、今回のアップデートでは音声のクオリティや表現力が大きく向上しているのが特徴です。

また、生成した音声はそのままナレーションとして利用できるだけでなく、アバターのリップシンクにも活用できるため、動画全体のクオリティ向上にもつながるアップデートといえます。

以下は、今回のアップデート内容を公式が紹介している動画です。全体の変化をざっくり把握したい方は、まずはこちらをチェックしてみてください。

今回追加・強化された主な機能

今回のアップデートでは、音声の自然さや表現力を高める機能が複数追加・強化されています。ここでは、それぞれの機能をわかりやすく解説していきます。

新しい音声モデルで、より自然な話し方に進化

新しい音声モデルが導入され、より自然な話し方で音声を生成できるようになりました。

以前レビューした時よりも、「Skye」「Leo」という新しい声も追加されているようです。

音声モデルは75以上の言語に対応しており、もちろん日本語の音声も問題なく生成できます。

実際にどの程度変化があるのかを確認するため、以前のバージョンで作成した音声と同じ条件で比較を行いました。

Domo AI 音声読み上げ機能の声を新旧比較

Alice（女性-アップビード、明るい）

新バージョン：

旧バージョン：

Diana（女性-大人、フォーマル）

新バージョン：

旧バージョン：

Mia（女性-生き生きしている、若々しい）

新バージョン：

旧バージョン：

Bob（男性-アップビード、明るい）

新バージョン：

旧バージョン：

Edward（男性-成熟した,フォーマル）

新バージョン：

旧バージョン：

Charlie（男性-生き生きしている、若々しい）

新バージョン：

旧バージョン：

Skye（女性-クリアで、高めの声）NEW

Leo（男性-クリアで、高めの声）NEW

実際に比較してみると、全体的に音声の抑揚や間の取り方がより自然になっており、従来よりも機械的な違和感が大幅に軽減されている印象です。

特に語尾の処理や文章のつながりが滑らかになっており、ナレーションとしてそのまま使っても違和感の少ないレベルに近づいていると感じました。

ボイスごとの個性もよりはっきりと感じられるようになっており、用途に応じた使い分けもしやすくなっています。Dianaのボイスは、最近よく目にするGoogleのCMの外国人女性の声に似ている気がしました。

ただ、スクリプトによっては、外国人が日本語を話しているようなイントネーションになる場合がある点には注意が必要です。

現状でも十分に使える音声品質ではありますが、より自然な日本語表現を実現するためにも、日本人話者の音声モデルの追加に期待したいところです。

感情表現に対応し、音声の表現力が向上

音声に感情を付けられる「エモーションコントロール」に対応し、従来のような単調な読み上げではなく、より人間らしい抑揚のある表現が可能になっています。

やり方は簡単。感情を乗せたいテキストを選択状態にすると自動で感情ワード選択画面がポップアップ表示されるので使いたいワードを選択するだけ。

すると、選択した感情ワードが先頭に表示されてアンダーラインが引かれるので、そのまま生成すればOK。

プリセット指定だけでなくプロンプトによる独自指定にも対応しています。

Domo AI 音声読み上げ機能の感情ワード指定比較

実際にどの程度変化があるのかを確認するため、同一条件で複数の感情パターンを作成して比較してみました。

音声：Alice
テキストプロンプト：どうしてそんなことをしたの？

ノーマル（指定なし）
陽気
悲しい
怒り
興奮
希望に満ちた
愛情深い
恐怖
ささやき
困惑
やんちゃでからかう
明るい笑い声を交えて話す
涙をこらえながらも毅然と
【プロンプト指定】周囲に聞かれないように、小さな声で緊張感を持ってささやくように

まず感じたのは、デフォルトの状態でも十分に抑揚のある自然な音声になっている点です。そのため、感情ワードを指定しなくてもある程度それっぽい読み上げは可能です。

一方で、感情ワードを追加することで、より強くニュアンスを乗せた音声に調整することができるのも確かでした。

ただし、実際に試してみると、指定した感情がそのまま分かりやすく反映されるとは限らず、「思ったほど変化がない」と感じるケースもありました。

そのため、1回の生成で完璧な音声を作るというよりは、何度か生成を試して、その中から最もしっくりくるものを選ぶ使い方が現実的といえそうです。

プロンプト指定の感情ワードについては、「周囲に聞かれないように、小さな声で緊張感を持ってささやくように」といったプロンプトを試してみたところ、「ささやき」プリセットよりも明確に変化を感じられました。

ただし、プロンプト指定についても常に安定して効果が出るわけではなく、うまく反映される場合とそうでない場合の差が大きい印象です。

感情機能は劇的に変化させる機能というよりは、細かいニュアンスを調整する機能として捉えるのが適切だと感じました。

より明確に感情を乗せたい場合には活用する価値がありますが、最終的には複数回生成しながら最適な音声を選ぶ運用が前提になる機能といえそうです。

複数ボイスに対応し、会話形式の音声が作成可能に

複数ボイスに対応したことで、2人のキャラクターによる会話形式の音声を簡単に作成できるようになりました。

例えば、解説役と質問役の掛け合いや、簡単なストーリー形式の動画など、これまでよりも表現の幅を広げることができます。

この機能は「マルチモード」として提供されており、現時点ではスピーカー A / スピーカー Bの2人構成に対応しています。

会話は「ダイアログを追加」ボタンを使って1つずつ追加していく形式になっており、それぞれのセリフに対して個別に音声を割り当てることが可能です。

実際に簡単な会話を作成してみました。

会話は1つの音声ファイルにまとめられますが、違和感の少ない自然なやり取りになっており、そのまま動画に使えるレベルに仕上がっていると感じました。

この機能を使うことで、あらかじめ作成したテキストを一括で取り込み、会話形式の音声を一気に生成することができます。

まず、以下のフォーマットでテキストを用意します。

Speaker A: どうして何も言ってくれなかったの？
Speaker B: ごめん、言うタイミングがなくて…
Speaker A: それじゃ伝わらないよ
Speaker B: わかってる、でも怖かったんだ
Speaker A: ちゃんと話してくれればよかったのに
Speaker B: 次はちゃんと向き合うよ

マルチモード画面にある「スマート貼り付け」ボタンを押し、表示された画面にこのテキストを貼り付けて確認ボタンを押します。

すると、テキストが自動的に分割され、それぞれのダイアログとしてマルチモード画面に反映されます。

以下は、音声AをSkye、音声BをLeoに設定して出力した音声です。

スマート貼り付けを使えば、1つずつ手入力する必要がなく、一気に会話を構築できるため、セリフ数が多い場合でも効率よく作業を進めることができます。

特に、やり取りの多い解説動画やストーリー形式のコンテンツでは、作業時間の短縮に大きく貢献してくれる機能といえそうです。

AIアバター機能と組み合わせた作成例

今回のアップデートで生成した音声は、AIアバター機能と組み合わせることで、実際の動画コンテンツとしてそのまま活用できるレベルになっています。

以下は簡単な作成例です。静止画に音声読み上げ機能で作成した音声を組み合わせ、AIアバターとして出力しています。

大理石像がプロテインの味に興奮

静止画：Adobe Fireflyで生成
音声モデル：Edward
テキストスクリプト：[興奮]このプロテインめっちゃうまいぞ

ガラ悪系美少女になじられる

静止画：DomoAIの画像生成機能で作成
音声モデル：Mia
テキストスクリプト：[怒り]てめえ、なにみてんだよ

絶望系女子

静止画：DomoAIの画像生成機能で作成
音声モデル：Mia
テキストスクリプト：[悲しい]もう、何も信じられないよ

今回のアップデートまとめ

今回のアップデート内容を改めて整理すると、以下の3点が大きなポイントです。

音声の自然さが向上
感情表現に対応
会話形式の生成が可能に

実際に一通り確認してみたところ、2025年末にレビューしたベータ版の頃と比べて、音声生成機能は劇的な進化をとげていました。

感情表現の追加や複数ボイスによる会話生成により、動画コンテンツにも使いやすい音声が作れるようになっています。

一方、日本人の話す日本語イントネーションとの若干の違いを感じる場合があったり、感情表現の反映精度など、細かい部分ではまだ改善の余地も感じられました。

それでも、手軽にそれなりに自然な音声を作れる点は大きな強みであり、ナレーションや会話形式の動画制作において、十分に活用できるツールとなっていると言っていいでしょう。

Domo AIのAIアバター機能は、日本人ユーザーにも人気の機能ですが、これまで音声生成を別サービスで行っていた方も、Domo AIで感情を乗せた音声を作ってそのままAIアバターに使う流れをぜひ一度試してみてください。

Domo AIの機能や操作方法をより詳しく知りたい方は、以下の記事で各機能を詳しく解説しています。

この記事を書いた人

あつし

Youtubeで動画編集のやり方を教えている「あつし」です。
当サイトでは、動画編集ソフトの使い方や、お役立ち情報、3DCG、VFX等動画編集や映像制作全般についての情報を発信していきます。
また、姉妹サイトの「TRY VEGAS PRO」では、動画編集ソフト「VEGAS Pro」に特化した情報や使い方を配信しています。
姉妹サイトともどもよろしくお願いします。