ふと思いついてブラウザでの音声コントロールについて調べてたら、こんなのを見つけたので早速試してみました。
目次
LipSurfとは
- ブラウザを音声でコントロールする
- 対応しているブラウザはChromeのみの様子(Chrome拡張で実現している)
- 日本語にも対応している
LipSurf Chrome拡張のインストール
LipSurfのトップページから"ADD TO CHROME"をクリック。
ChromeウェブストアでLipSurfの拡張ページが開くので「Chromeに追加」をクリック。
「拡張機能を追加」をクリック
インストール完了すると、チュートリアルが始まります。設定等を保存しておくためにはアカウント連携が必要です。どれかを選択します。今回はGoogleアカウントでやってみます。
マイクの使用許可のポップアップが開きますので「許可する」をクリック。
マイクが有効になったら、言語に「日本語」が選択されていることを確認して、表示されているように話してみましょう。ただし日本語で。「次のページ」と言ってみると・・・
次のページに移動しましたね。こうやって音声でブラウザの操作ができるということです。
LipSurfの音声認識のON・OFF
LipSurfで音声認識をON/OFFする方法はチュートリアルの続きに書かれています。3つの方法があります。
1つ目はChromeの拡張アイコンをクリックする方法です。
拡張アイコンがこういうふうになっていれば、LipSurfがONになっていて、音声の入力ができます。
クリックして、グレーアウトしていればLipSurfがOFFになり、音声入力ができなくなります。ONにする場合は再度クリックします。
2つ目はキーによる音声入力の有効化です。LipSurfでは"push-to-talk"というようです。デフォルトではOFFになっているようです。
設定するには拡張アイコンを右クリックしてオプションを開きます。
オプション画面で"General"にある"Push-to-talk key" にショートカットを設定します。ここではCtrlキーを設定してみました。複数のキーコンビネーションは設定できないようです。
実際に試してみるとこんな感じで、キーを押している間だけ音声入力がONになります。
3つ目はスマートスピーカーでおなじみのウェイクワードを使う方法です。残念ながらこれは有料アカウントのみの機能になっています・・・
OFFにする場合は音声でも可能ですね。日本語だと「スリープ」とか「終了」でOFFになります。
その他の操作
チュートリアルはこの後も続きます。
画面をスクロールさせたり
ボタンをクリックしたり
その他のチュートリアルもありますね。
詳しい操作はヘルプを見ると、どういうふうに発話すれば良いのかがわかります。ヘルプを起動するには「ヘルプ」、閉じるには「ヘルプを閉じる」と発話します。
で、いろいろ使いこなしている方のツイートを見ると、Twitterへの投稿なんかもできてて、なかなかいい感じで使えそうですね!
このツイートをした時のLipSurf での 挙動がこの通りになります。 キーボードは一切使っていません。 https://t.co/D26GkMwZR3 pic.twitter.com/0ddlUNrD9C
— くらげ@ものをかく38歳児 (@kurage313book) 2022年5月30日
まとめ
いい感じなのですが、一部引っかかったところも。
- 当然ながら正しく認識されるか?というところが気になるところですが、一部正しく日本語を認識できていないところがあるようです。厳密に言うと日本語は正しく認識できているのですが、操作とマッチしない感じ。例えば、
- 一番下までスクロールするには「いちばんした」と発話すれば良いはずですが、まず「一番下」と認識され、そのあと「いちばんか」というふうに解釈されるようです。ここがマッチしていないので一番下までスクロールするというのが動きません。ちなみに「一番上」も同じ。
- テキストの入力は有料アカウント向けの機能になっています。あくまでも個人的な意見としては、これで月6ドルはちょっと高いかなーという印象・・・
とはいえ、音声でブラウザをコントロールできるのはなかなか便利で、非常によくできてるなーと感じます。このあたりは実際に体験して試してみてほしいと思いますね。また、オプションもいろいろ豊富ですし、自分でプラグインなども作れるようで開発者向けドキュメントも用意されています。
結構前からあるサービスらしいのですが全然知らなかったので、まだまだ情報収集力が足りないなーと感じました。今後も音声関連のサービスはいろいろ試してご紹介したいと思います。