口の形を読み取ってスマートフォンに入力できる眼鏡型デバイス「EchoSpeech」を発表 コーネル大学:音響感知と人工知能を利用し無発声でコマンド認識
コーネル大学の研究所は、低電力のウェアラブル無声音声認識インタフェース「EchoSpeech」を発表した。
コーネル大学のSciFi(Smart Computer Interfaces for Future Interactions)研究所は2023年4月6日(米国時間)、低電力のウェアラブルインタフェース「EchoSpeech」を発表した。EchoSpeechは、唇と口の動きに基づいて、音響感知と人工知能を利用し最大31個の発声されていないコマンドを認識する無声音声認識インタフェースだ。コマンドを認識してスマートフォンで実行できるようになるまでのユーザートレーニングには数分間しかかからないという。
「音を発声できない人にとって、このサイレントスピーチ技術は、音声シンセサイザーへの優れた入力方法となる可能性がある。患者の声を取り戻すことができるかもしれない」と開発者の一人であるルイドン・チャン氏は、この技術の潜在的な用途について語る。
EchoSpeechは2023年4月現在、騒がしいレストランや静かな図書館など、会話が不便、不適切な場所で、スマートフォンを介して他のユーザーと通信するために使用できる。サイレントスピーチインタフェースは、スタイラスペンと組み合わせて、キーボードやマウスを使わずにCADなどの設計ソフトウェアで利用することも可能だという。
EchoSpeechメガネは鉛筆の消しゴムよりも小さいマイクロフォンとスピーカーを備えており、顔全体に音波を送受信し、口の動きを感知することができる。SciFi研究所の研究者によって開発された深層学習アルゴリズムは、これらのエコープロファイルをリアルタイムで分析し、約95%の正確さで判別できるという。
SciFi研究所は、機械学習とウェアラブルな小型ビデオカメラを使用して体、手、顔の動きを追跡するウェアラブルデバイスを幾つか開発した。研究対象はカメラから離れて、顔や体の動きを追跡するための音響センシングに移行しており、バッテリーの長寿命化、セキュリティとプライバシーの強化、コンパクトさを実現したとしている。
「サイレント音声認識のほとんどの技術は、あらかじめ決められた少数のコマンド群に限定されており、ユーザーはカメラに顔を向けたりカメラを装着したりする必要があるが、これは実用的でない」と、チャン氏は述べている。「ウェアラブルカメラには、ユーザーとユーザーがやりとりする相手の両方にとって、プライバシーに関する懸念もある」(チャン氏)
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
2023年に「実現しない」5つの技術――産業用メタバース、プライベート5Gなど ABI Researchが発表
ABI Researchは、期待が高いものの2023年には実現しないと予想される技術トレンドを5つ取り上げて解説した。2030年代までに「超サイバネティクス技術」を実現?――5Gの次のステップ、6Gの国家戦略とは
総務省では5Gの次のステップである「Beyond 5G(6G)」を推進するための道筋を「Beyond 5G推進戦略懇談会」の場で検討している。どのような戦略を立て、議論しているのか。モノ自体にデータを安定保存する手法を開発、スイスの研究者
スイス連邦工科大学チューリッヒ校の研究チームが、ガラスのナノ粒子を使ってほとんど全てのモノをデータストレージユニットに変える新しい方法を発見した。記録寿命は数百年と長く、薬剤から眼鏡までさまざまなモノにデータを記録できる。