Microsoftが会議の文字起こしアプリ『Group Transcribe』をリリース

MicrosoftがiOS向けにリリースした文字起こしアプリ『Group Transcribe』は会議の文字起こしに特化した画期的なアプリのようだ、これが普及すれば議事録作成業務は格段に効率化するだろう

App StoreページのUIが英語表記だったので、日本語対応はまだかなと思っていたが、サポートしている言語に日本語も含まれており、実際にアプリをダウンロードするとUIもちゃんと日本語化されていた

音声の文字起こしの精度はこのアプリに限らず、他のアプリでも日ごとにその精度は向上しているが、この『Group Transcribe』の画期的な機能は、複数人の音声を文字起こしできること、また音声レベルを認識して話し手の識別もするという点にある

どう実現しているかというと、発起人が『Group Transcribe』を起動すると、共有用のQRコードが発行され、会議に参加する他の人もこのコードからアプリを立ち上げることで、誰が喋ったかを文字起こししてくれるというものだ、その識別はAIが端末との距離や声量から判断していくのだという

これは一度試してみたいところだ

Chromeがシークレットモードでも個人情報を収集しているという訴訟、認識の相違がポイントか

アメリカで、Google Chromeが閲覧履歴を残さずウェブサイトを閲覧できるシークレットモード使用中にも個人情報を収集しているという集団訴訟が起こっているそう

原告たちは、シークレットモード使用中にもGoogleアナリティクスやスマホアプリなどから個人データが収集されているという主張

対してGoogleは、シークレットモード使用の最初の画面にて、シークレットモードは”見えない”という意味ではなく、サードパーティの広告サービスから見える可能性があることを喚起しているという主張

閲覧履歴を残さず、またこれまでの閲覧履歴を使われずにウェブサイトを閲覧することをプライベートブラウジングと呼ぶが、結局これも昨今加熱しているサードパーティCookieによる個人情報保護に起因しているものがあり、GoogleはChromeのシークレットモードの最初の画面でその注意喚起を表記しているし、個人的にも完全に遮断されているとは思ってない前提での使用だったので、このニュースに関しては、認識の違いが生んでいる問題なのかなという印象

Facebookが過疎地や開発途上国向けに軽量な『Instagram Lite』を提供

Facebookが3月10日に発表した情報

従来のInstagramアプリは30MBくらい容量があるが、Instagram Liteアプリは2MB程度で、インターネットが脆弱な過疎地や開発途上国での情報格差解消を目指すほか、そうした地域のユーザも取り込みたいFacebookの思惑も感じる

OSや従来アプリとの機能差については触れられていないので、アプリ容量が軽量な以外の違いについてはまだよくわからない

▼参考記事
https://japan.cnet.com/article/35167713/

Thumbnail image from: https://japan.cnet.com/article/35167713/

GoogleのFloCに電子フロンティア財団が反対表明

まさに過渡期なので入れ替わり立ち替わりに新しい情報が飛び込んできている真っ最中なのが、インターネット広告と関連性が非常に高い脱Cookie問題

Googleは、サードパーティーCookieではなくブラウザに搭載するAIからターゲティングのための属性集団を生成していくFLoCをテスト導入していく発表をしているが、これに電子フロンティア財団(EFF:アメリカのデジタル社会下における自由な権利とその保護に関する主張をおこなう非営利組織)が反対表明を出した、「最悪のアイディア」との言葉を添えて

議論の詳細は技術的にも複雑な部分を抱えているが、議論の主題としては、ターゲティングの材料集めの舞台をブラウザに移すと、今後はフィンガープリントの作成が容易になるという指摘だ

フィンガープリントとは、デジタルデータが改竄されてないことを証明するデータのことで、今回の文脈では『ブラウザフィンガープリント』を指している

ブラウザフィンガープリントとは簡単に言ってしまえば、同じブラウザを使っているユーザ同士でも使っているPCのスペックやブラウザの拡張機能の違いによって各ブラウザ固有の値が特定できるというもの

EFFはFLoCのコホート割当アルゴリズムを解明すれば、逆流するようにコホートから固有のブラウザを特定できてしまうのではないか、としている

まだまだ過渡期だなと感じさせるが、EFFは今回の表明を下記の言葉で締めくくっているとのこと

Googleはサードパーティーによる追跡の時代から教訓を学び、広告主ではなくユーザーのために機能するようなブラウザを設計する必要があります

▼参考記事
https://gigazine.net/news/20210305-googles-floc-terrible-idea/

Thumbnail image from: https://gigazine.net/news/20210305-googles-floc-terrible-idea/

リターゲティング広告の代替技術はTURTLEDOVE

興味関心のターゲティングに関してはブラウザ搭載のAIとコホート分析を組み合わせた『FLoC』がGoogleがこれから新技術として試験導入していくことがわかっているが、同じターゲティングでも、ランディングページを訪問したユーザを追跡して広告を表示するリターゲティング広告については、『TURTLEDOVE (タートルダヴ)』という技術が採用される見込みとのこと

『TURTLEDOVE』は日本語でキジバトの意味だが、キジバト自体に意味があるわけではなく、これは『Two Uncorrelated Requests, Then Locally-Executed Decision On Victory』の頭文字である、ある程度はこじつけ的な部分もあるだろう

興味関心のターゲティングをブラウザに搭載するAIを使ってコホート単位でターゲティングさせるように、『Turtledove』でもブラウザ内で広告に関わる処理を行わせる仕組みらしい

つまり外部のアドサーバ上でやりとりを行うとどうしても第三者にデータを盗まれてしまう可能性があり、ブラウザ内で処理させることで広告にまつわるデータが外に出ない分、ユーザーのプライバシーに配慮しているという見方なのだろう

詳しい仕組みは今後どんどん明瞭になっていくだろう

Thumbnail image from: https://ebird.org/species/eutdov

Instagramライブが従来の2人から4人での配信可能に

Instagramライブでは、もう1人Instagramユーザーを招待して縦画面を上下2分割してコラボ配信ができるのだが、今回『Live Rooms』という機能名称にて、このコラボ配信が同時に4人まで可能になった

トークセッションなどでの利用を想定しており、支援の投げ銭機能もある

今後はモデレーション機能も追加していくとのことで、明らかにClubhouseを意識していることがわかる

Thumbnail image from: https://www.itmedia.co.jp/news/articles/2103/02/news061.html

17世紀の未開封の手紙を歯科用X線スキャナーを使ってバーチャル開封できる

世界初、17世紀の手紙の「バーチャル開封」に成功!触れずに中身を読める

これで文化価値の高い書物の解読の発展に一役買うのではないだろうか

17世紀頃の手紙はまだ封筒が流通していなかったため、レターロッキングという独特な何重にも折り畳む方法で手紙はやりとりされていたらしく、古い手紙は開封する際に損傷してしまうことが懸念されていたそう

そこで元々歯科用に開発された強力なX線スキャナーを使ってスキャンし画像化、次にそれをコンピュータ技術によって折り目などを解読してバーチャル上で復元し、バーチャル上で開封できるようにしたのだという

こうやってテキストで書くとシンプルな手順だが、ものすごい技術同士の組み合わせで非常に驚きだ、リンク先にはバーチャル開封の様子の画像もある

Thumbnail image from: https://nazology.net/archives/84214

GoogleのAIを使って開発した音声新コーデックLyraがすごい

GoogleのAIに関する技術ブログで公開された、音声新コーデック『Lyra』がものすごい

コーデックとは『Compression(圧縮)/DeCompression(伸長)」の略で、動画に含まれる動画データと音声データをやりとりする際に、エンコード(圧縮と変換)とデコード(伸長・復元)をする際のアルゴリズムのことで

コーデックにはさまざまな種類があって、代表的な動画コーデックには、MPEG-4・ MPEG-1・MPEG-2・ Xvid・Divx・H.263・H.264などがあり、代表的な音声コーデックには、MP3・AAC・AC-3・FLAC・LPCM・WMAなどがあり、一般的にはコーデック=ファイル形式みたいな認識をもたれてると思う

ビデオ通話の普及と進化により、リアルタイム通信で遅延がなくかつ高品質であることが求められてきており、動画コーデックに関しては技術革新によって停滞域でも高品質な映像を提供できるようになってきているそうだ

しかし、音声コーデックに関しては、帯域を低くする(≒データの転送速度を落とす)と、音声信号の理解が難しくなり、音声がロボット化していく傾向がある

Googleが開発した新コーデックLyraは、圧縮処理の際に音声データから人間の声の部分を機械学習されたAIが抽出して送信する仕組みをとっているとのこと

この処理を踏まえても、通話時における遅延はわずか0.090秒なのだそうで、実際にGoogleの通話アプリGoogle Duoでは組み込まれているのだそう

こう説明してもピンとこないと思うので、実際にリンク先では『元音声』『既存コーデックの6kbps』『Lyraによる3kbps』を比較することができるので聴いてほしい

もはや人の声に関しては、元音声よりもクリアだ、これを従来のコーデックの転送速度の半分にしても実現できているところがものすごいところなのである

▼ページ中段ほどに比較音声データがある
https://ai.googleblog.com/2021/02/lyra-new-very-low-bitrate-codec-for.html

Googleがこのコーデックを採用、もしくは一般的に開放していくことにより、ウェビナーやテレカンやビデオ通話における音声品質はよりクリアになっていくだろう

Thumbnail image from: https://ai.googleblog.com/2021/02/lyra-new-very-low-bitrate-codec-for.html

東京ガスのCMの魅力

なんと形容していいのか迷うけど、東京ガスのCMは、制作・放送した時代のエッセンスを拾っている気がしていて、「今これを広告することに意義がある」みたいな必然性を感じさせられる

2021年2月頃にネット広告でもたくさん見かけたCM

以下は公式のアップ動画ではないのだが、過去のもの

2008年から続いている家族の絆シリーズ、2016年の『やめてよ』篇

描写がリアルすぎて苦しいという声を受けて放送中止になった2014年の『母からのエール』篇
個人的に一番好き(というか本当に泣いた)、2019年の『母のチーズケーキ』篇

10年くらい前にウェブプロモーションとあわせて展開していた『東京ガスストーリー』も好きだった

Thumbnail image from: https://youtu.be/JQoouMCmZI4