Microsoftが人間の3秒分の音声だけでその人の声を真似るAI 『VALL-E』を発表

Microsoftが2023年1月5日、人間の3秒分の音声を与えるだけでまるでその人のようにテキストを読み上げられるようになるAI『VALL-E』を発表した

VALL-Eの音声合成機能はMeta社が作成した音声ライブラリ『LibriLight』に含まれている7,000人以上の人間による6万時間分の英語音声によってトレーニングされている

VALL-Eのウェブサイトでは3秒分の音声と生成された音声を聴き比べるができるようになっている

Microsoftは発表した論文内でVALL-Eは音声によるなりすましなど潜在的なリスクを伴う可能性があるがそうしたリスクを軽減するために生成された音声がVALL-Eで合成されたかどうかを識別するモデルを構築することが可能だとしている


引用/参照元

https://www.itmedia.co.jp/news/articles/2301/10/news087.html

Thumbnail image from

https://valle-demo.github.io/