2022.08.01

キーボードを使わず喋ればいい。Windowsの音声入力をWindows + Hでスタート

リンクをクリップボードにコピーしました

Windowsでの文字入力といえばIME。このシステムソフトウェアが、ほぼすべての場面で、日本語入力を支援します。おそらく、パソコンを使っている時間のうち、もっとも頻繁に使うソフトウェアではないでしょうか。

そんなIMEですが、昨今注目されているのが、音声入力です。IMEを使って文字入力ができる場面では、いつでも音声による文字入力ができます。

Windowsに標準装備された音声入力

Windows 11の音声入力は、人間がパソコンに向かって発話することでテキストを入力することができます。Azure Speechサービスとして提供されているオンラインでの音声認識が使われます。したがってインターネットへの接続は必須であり、オフラインでの利用はできません。

音声入力は、文字を入力できる場面ではいつでも使うことができます。WordやExcelといったアプリでの入力はもちろん、ファイル名の入力や、ブラウザーのアドレス欄や検索ボックスなど、キーボードから文字を入力できる場面では、いつでも音声での入力ができます。

音声入力をスタートするには、Windowsキーを押しながらHキーを押します。

この状態で真ん中のマイクボタンを押して音声を入力すると、話した言葉が文字になって入力されていきます。

コンパクトな音声入力起動ツールをデスクトップに常駐させることもできる。マウスやタップの操作だけで音声入力を開始できる。

文字になる音声以外に、音声入力コマンドと呼ばれる特別なフレーズを識別します。これらについてはMicrosoftのサポートページに詳細がリストアップされています。

さらに、記号などについては、それぞれの呼び名があり、句読点コマンドとして発音すれば、入力ができます。これについても上記のページでその一覧を確認することができます。

入力ができるときしか使えない

音声入力が使えるのは、文字を入力できる場面、タイミングのみです。たとえば、音声入力を使ってWordで文書を作成中に、参考資料を確認するために、ウェブブラウザーを開いたとします。このとき、ブラウザーのウィンドウがアクティブになり、フォーカスが移ります。その時点で音声入力は停止されてしまうのです。

再び、Wordアプリに戻ってウィンドウをアクティブにしても、音声入力は自動的に再スタートしません。音声入力が必要なら、もういちどWindows + Hで音声入力を開始する必要があります。

Microsoft Teamsの自動文字起こし機能

エンドユーザーがWordアプリなどでキーボード代わりに使う口述筆記具としての音声入力ではなく、Microsoft Teamsのようなオンライン会議アプリに統合された自動文字起こし機能も注目されています。詳しくはこちら

すでに日本語にも対応し、会議で音声によって発言された内容をテキスト情報として記録(トランスクリプション)することができます。また、しゃべっている言葉を、そのまま字幕として表示することもできます(ライブキャプション)。初期設定では、言語が英語です。日本語音声については日本語を言語として設定しておきます。

映像として記録された会議は、たとえそれが音声付きのものであっても、その内容として、どんなことが話されていたかをあとで確認するのはたいへんです。でも、音声の内容が文字で保存されていれば、どのあたりでどんなことが話されていたのかを容易に知ることができます。また、任意のキーワードがどの映像ファイルに含まれているのかを検索し、瞬時に当該映像を探し出すことができます。

動画を見るにはある程度の時間がかかります。仮に倍速で見ることができたとしてもそれなりの時間が必要です。でも、文字で内容を検索することができれば、その時間を一気に短縮することができるはずです。

なお、Microsoft Teamsの自動文字起こし機能は、管理者によって会議ポリシーの「グローバル(組織全体の既定値)」にある「レコーディングとトランスクリプト」でトランスクリプトをオンにしておく必要があります。デフォルトでオフになっていて、その場合はメニュー内でグレーアウトして自動文字起こしを開始することができません。

会議の発言を音声認識して文字にし、字幕として表示できる。他言語にリアルタイム翻訳も可能。

映像も大事だが音声こそがものをいう

オンライン会議において、多少の映像の乱れがあったとしても、会議の進行にはそれほど大きな影響はありません。極端にいえば、表情がわからないものの、音声のみのコミュニケーションでもなんとなるかもしれません。これほどオンライン会議が頻繁に行われていなかった時代には、たいていのリモート会議は電話での音声のみで行われてきたものです。だからこそ、音声については途切れ途切れになるなどの支障があれば、コミュニケーションの質が下がります。

相手にクリアな音声を伝えるには、パソコンの装備としてのマイクの性能や、それをコントロールするシステムソフトウェアが、ノイズキャンセル等を適切に行う必要があります。

HP Elite Dragonflyなど、HPのビジネス向けノートパソコンに搭載されているAIベースのノイズキャセル機能などを駆使して、正しい設定でクリアな音声を相手に届けられるようにしたいものです。

フリーランスライター 山田祥平

リンクをクリップボードにコピーしました