元の声で通訳ができるGoogle AIの登場。AIが通訳・翻訳者の仕事を奪う日はくるのか?

Googleの研究者チームはニューラルネットワークを訓練し、ある言語からある言語へ自動通訳するプロセスを大幅に簡略できる、「ボイスプリント」のオーディオマッピング技術の開発に成功しました。

リンク先のサイトでは、スペイン語の元の音声に対し、これまで使われてきた英語の自動通訳の音声、Google AIを使った新しい自動通訳の音声を聞くことができます。男性の穏やかな口調の元の音声が、これまでの自動通訳では女性の声に置き換わっています。それがGoogle AIを使うと、元の男性の声で英語に通訳されています。

これを可能にしたのは、インプットされたオーディオを、テキスト変換などを仲介することなくダイレクトにアウトプットに変換できる技術です。これまでの自動通訳では、元の音声をテキストに変換し、テキストを翻訳してから別の音声に再変換していたため、元の音声の特徴を失っていました。

Google AIを利用した新システムは「Translatotron」と呼ばれ、3つの要素が音が発せられるときの周波数のビジュアルスナップショットであるオーディオスペクトログラムを読み取り、加工する技術です。

最初の要素はニューラルネットワークを利用し、インプットされるボイスプリントとも呼ばれるオーディオスペクトログラムを、ターゲット言語にマッピングします。第二の要素がスペクトログラムを、再生可能なオーディオウェーブに変換します。第三の要素が最終的にアウトプットされるオーディオに、オリジナル音声の特性のレイヤーをかけます。

以上の工程はテキスト変換を介することなく、プロセスが単純化されるため、誤通訳の低減も期待されているそうです。日本語記事もいくつかありましたので、興味のある方はどうぞ。

 

まとめ

英語を使える日本語ネイティブのぼくとしては、機械通訳・翻訳の進化はうれしくもあり、脅威でもあります。日英翻訳には、Google翻訳をフル活用しています。機械翻訳はかなりの精度が高まっていますが、今のところ50%といったところでしょう。それを、80%まで高められる翻訳者であれば需要があります。

もし、機械翻訳の精度が80%まで高まれば、多くの翻訳者が失業するでしょう。ラテン語など同じ言語を元にした、似たような言語間であれば、既にかなりの精度で機械が翻訳できるようになっています。世界の中でもマイナー、かつユニークな日本語という障壁が、どこまでAIによる通訳・翻訳者の駆逐を防いでくれるのか、楽しみでもあり恐ろしい気がします。