GoogleのAIを使って開発した音声新コーデックLyraがすごい

GoogleのAIに関する技術ブログで公開された、音声新コーデック『Lyra』がものすごい

コーデックとは『Compression(圧縮)／DeCompression(伸長)」の略で、動画に含まれる動画データと音声データをやりとりする際に、エンコード(圧縮と変換)とデコード(伸長・復元)をする際のアルゴリズムのことで

コーデックにはさまざまな種類があって、代表的な動画コーデックには、MPEG-4・ MPEG-1・MPEG-2・ Xvid・Divx・H.263・H.264などがあり、代表的な音声コーデックには、MP3・AAC・AC-3・FLAC・LPCM・WMAなどがあり、一般的にはコーデック＝ファイル形式みたいな認識をもたれてると思う

ビデオ通話の普及と進化により、リアルタイム通信で遅延がなくかつ高品質であることが求められてきており、動画コーデックに関しては技術革新によって停滞域でも高品質な映像を提供できるようになってきているそうだ

しかし、音声コーデックに関しては、帯域を低くする(≒データの転送速度を落とす)と、音声信号の理解が難しくなり、音声がロボット化していく傾向がある

Googleが開発した新コーデックLyraは、圧縮処理の際に音声データから人間の声の部分を機械学習されたAIが抽出して送信する仕組みをとっているとのこと

この処理を踏まえても、通話時における遅延はわずか0.090秒なのだそうで、実際にGoogleの通話アプリGoogle Duoでは組み込まれているのだそう

こう説明してもピンとこないと思うので、実際にリンク先では『元音声』『既存コーデックの6kbps』『Lyraによる3kbps』を比較することができるので聴いてほしい

もはや人の声に関しては、元音声よりもクリアだ、これを従来のコーデックの転送速度の半分にしても実現できているところがものすごいところなのである

▼ページ中段ほどに比較音声データがある
https://ai.googleblog.com/2021/02/lyra-new-very-low-bitrate-codec-for.html

Googleがこのコーデックを採用、もしくは一般的に開放していくことにより、ウェビナーやテレカンやビデオ通話における音声品質はよりクリアになっていくだろう

Thumbnail image from: https://ai.googleblog.com/2021/02/lyra-new-very-low-bitrate-codec-for.html