ポエム：スマートスピーカーの終焉報道について

ここ最近、スマートスピーカー関連についてなかなか厳しいニュースが続いています。

個人的には「ついに来たか」というのが一番最初に感じたことではあるのですが、これについていろいろ思うところを書き綴ってみたいと思います。多分に自戒を込めた感じで。

いろんな立場や考えの人がいると思うので、正解はないだろうし、それぞれが思っている正解も違うはず。なのであくまでも個人の意見ですし、あと国内でビジネスとして成立させるということに私は重きをおいているので、その前提でこんなこと思ってる人がいるんだなーぐらいに捉えてもらえればと。

マネタイズやビジネスモデルの重要性

2015年頃からUSで始まって、国内でサービス開始されたのが3社とも2017年頃、USではすでに7年、日本でもすでに5年が経っています。その中でプラットフォームそしてサードパーティーの開発者でマネタイズに成功できた事例がどれだけあったでしょうか？

はっきりいってほとんどないのではないかとおもいます。

USではスタートアップがウン十億の資金を調達して、それでどんどん人員増やしたり機能追加したり、みたいなのがよくありますが、これってあくまでも先行投資だと思っていて、どこかのタイミングでは何かしらのリターンなり結果が求められる。

つまり食べていけるビジネスモデルを作らないといけないわけです（Twitterのような借金経営でも長々と続く場合もあるようですが、それでも永遠に続けるのは無理があると思っています）。

なので今回のニュース、ずっとマネタイズできていないものに対して「改善する」 or 「縮小/撤退する」を判断しろという「タイミングが来た」だけだと思っていて、別に驚くところは何もないですし、ここ1〜2年ほどの動きを見ている限り、いつ来てもおかしくないと思っていました。

マネタイズに至らなかった理由

これだけの時間をかけてきて、それでもマネタイズができていない理由はなんでしょうか。まあこれは色々あると思います。

言語認識がまだ未成熟で、ユーザの期待値との差が大きい
マッチするユースケースが見つからない
プラットフォームの制約が厳しすぎる
コロナによる機会喪失

一つづつ考えていきたいと思います。

1. 言語認識がまだ未成熟で、ユーザの期待値との差が大きい

AIと聞くと、だいたい私たちが思い浮かべるのは未来からやってきたドラ焼き好きのこれです。

USとかならこれなんでしょう。

いや、たしかにこれができれば言うことないんだけど、残念ながら今の技術ではまだここにはたどり着いていないです。

音声アシスタントのプロセスはざっくりまとめるとこんな感じで、

自動音声認識（ASR）・・・音声を入力データとして認識し取得する
言語処理・言語理解（STT/NLP/NLU）・・・音声データをテキスト化し、構文・意味を解析して、必要な要素を取り出す
バックエンド処理・・・ 2のデータを元に何かしらの処理を行い、レスポンスを生成する
音声合成・・・ 3のレスポンスから音声を合成して再生する

まだまだ足りていないのは2のところです。現在のAIと呼ばれる技術の発達は大量のデータを元に機械学習によるところが大きいですがそれでも十分ではなくて、その代わりにインテントベースと呼ばれる会話モデル設計を開発者自身の手で行っているわけですね。

そして、人間が設計をアシストする必要がある時点で、上記のようなAIが行うような流暢なやりとりは実現できませんし、作業も大変です。人間の会話ってそれだけ複雑なんですよね。

これについては、例えばAlexa Conversationsのような対話モデルを設計するのではなく、対話スクリプトから自然に設計しようというアプローチがあります。

これを使えば人間のアシストはいくらか減ることが期待できるのではないかと思いますが、とはいえ、開発者側が行うべきアシストがゼロになるわけでもなければ、やや設計は複雑化してる感もあります。個人的にはプラマイゼロ、ややマイナスぐらいの感覚です。

この辺の期待値の差は将来的に埋めていかれるのではないかとは思いますが、それと同時に「現時点でできること」もベースに考えていく必要があります。

2. マッチするユースケースが見つからない

お家にあるスマートスピーカー、何に使っていますか？

タイマー
スマートホーム
音楽を聞く

ご自宅で使う分には、この辺が特に多いところでしょう。これについては私にも当てはまるところです。あと、思いつくところで便利だなと思うのは、

Amazonの配達通知

といったプッシュ的な役割ですね。

これらの多くは公式の機能として提供されています。これ以外についてはどうでしょうか？継続的に使っているスキルとか今でもありますか？

案外ないんじゃないでしょうか？開発者なのに。かくいう私もないです。一番使っていたのは以前自分で作った「雨雲マップ」でした（天気APIの終了に伴いスキルも終了しています）。

Alexaの場合だと、開発者が作れるのはカスタムスキルになります。で、このスキル開発において、２つ命題があると思っています。

カスタムスキルとして音声でできることのメリットを提示したスキルになっているのか？
それを提供するに当たり、複雑な会話って必要なのか？

2-1. カスタムスキルとして音声でできることのメリットを提示したスキルになっているのか？

これについてはそもそもの話で、例えば、タイマーとかって別にスマホでも良いし、物理的なタイマーでも良いんですよね。スマホの場合だといちいちスマホを取り出して操作するという手間、物理的なタイマーならタイマーのある場所でしか設定できない手間、がありますが、音声でできることと比べた場合に音声サイドにどれだけメリットがあるのか？

スマホや物理的なタイマーってもう私たちの生活に溶け込んでいますよね。なので、手間がかかるといっても何かを「考えて」やることはほとんどないんじゃないかなと思っています。それに対して、スマートスピーカーでやる場合には「どういう言い方をすればよいのか？」とかちょっと「考える」瞬間が出てきてしまいます。

個人的に「手間」というのは、手数がかかるというのはもちろんあるのですが「考えることそのもの」だったり「思考の切り替え」に対する「心理的抵抗」なのではないかなと思っています。例えば、めんどくさいことでも継続的にやっていて慣れてる作業なら、人間側がそれに最適化しちゃって、実は頭空っぽでもできちゃったりすると。人間って新しいことを考えるのが一番手間なんだろうと思っていて、わかりやすいのは居酒屋とか食堂で「とりあえず生！」とか「いつもの！」みたいなやつ、まさにこれだと思っています。

これまで何も考えずにできたことと、新しいことに取り組む手間＋それによって得られるメリットを天秤にかけた場合、メリットが勝てば使われるでしょうし、手間が勝てば使われないでしょう。特にカスタムスキルの場合は「呼び出し」も必要になりますし、使い方になれる必要もある＝学習コストを考えると、結構ハードルは高いかなと思います。

なので、こういった手間があったとしても使ってもらえるようにするには、「使わざるを得ない」＝「自然にメリットを享受しやすい」シチュエーションでの活用を考えるのが一番効果が高いと思っています。

手が離せないシチュエーション
- ここは当然キラー
- 例えば、
  - 子育て中
  - 料理中
  - 車の運転中
  - お風呂とかシャワー中（個人的にここは熱いと思っていますが、水回りをいじること自体のハードルが高いそうではあります・・・）
入力や移動が面倒なもの
- 頭で考える分には大したことはないんだけど、入力するとなるとパラメータが多いもの
- 例えば、
  - スケジュールや予定の設定。Googleカレンダーあたりに予定入れるの、案外面倒だと個人的に思っています。秘書が管理してくれると楽なもの、を考えるのが良いかもしれません。音声アシスタントなんだし。
  - スマートホーム。うちは多分に利用しています。Switchbot製品で揃えていて、ほぼ全部製品あるんじゃないかなと思います。とても便利です、ただ誰でも設定できるか、と言われるとまだ改善の余地があるとは思いますが。
単純に使えるもの
- 何も考えずに直感的に使えるもの。スマホとかでもできるけど、明らかに楽な場合。
- 例えば、
  - タイマーとか（上の例ではあえてタイマーで書いてみましたが、タイマーはそれほど覚えることはなく直感的に使えるので、良い例ではなかったですね）
  - 天気聞いたりとか
プッシュが有効なもの
- スマホでもプッシュは使い方次第で便利なので、音声だとより強調される感はあります。
- 逆にウザい感じも強調されるかなぁ・・・

他にもいろいろあるかもしれませんが、まずはこういうところを念頭に置いてやるだけでも違うと思っています。

2-2. それを提供するに当たり、複雑な会話って必要なのか？

で、上記にも絡むのがこれ。例で上げたような機能に複雑な会話モデルや対話って必要でしょうか？

提供する機能の内容にもよるとは思いますが、基本的に不要ですよね。シンプルにかんたんに使えるに越したことはない。

昔の記事でなるほどと思った記事を紹介します。

音声アシスタントの最終ゴールは「人間らしい会話」になると思いますし、私たち開発者もそれを目指している面が多分に存在すると思います。ただ、果たしてそれは正しいのか？。例で挙げられているようなATMの場合「早く目的を達成したい」が優先されます。そこには「リッチな会話体験」は求められないのですね。それならば「人間らしい会話」よりも「機械との会話」を想定した簡略化されたものでもよいのではないかと。つまりユースケース次第ってことですね。

「人間らしい自然な会話」をプラットフォームは求めてきますが、そもそも実現することは現時点の技術レベルでは難しいです。「人間らしくすべき」を目指すことで逆に使いにくくなったりしては本末転倒です。また、それが求められるような会話のユースケースがどこまであるか、というところについても、今の利用状況もそうですしユーザ側の理解度も踏まえると正直疑問です。であれば「今」受けいれられる＝継続的に使ってもらえてかつ利便性を提供できる、レベルか？というところは再度考慮して見る価値はあると思います。こういう感じですかね。

いかにもロボットすぎるのは厳しい。
人間らしすぎるのを目指すのは色んな意味で無理
最低限の人間らしさとシンプルなインタラクションでの完結がベスト

これらを目指した場合合、以下のような複雑でマルチターンな会話をアシストする機能、ほとんどのケースで必要ない感じがします。

Alexa Conversations
ダイアログモデル

個人的には「使ったらその時点で負け」ぐらいの感覚がありますね。

どうしてもこういう機能を使わないといけない理由やユースケースでない限り、なるべくインタラクションはシンプルに、短く簡潔に目的を達成できるような会話フローをゴールとするほうが広く受け入れられやすいのではないかと思います。

ただし、逆に「音声/AIアシスタント」という響きからものすごく人間的な会話を期待しているユーザもいると思うので、その点では期待値との乖離は発生するとは思います。

3. プラットフォームの制約が厳しすぎる

現状のスマートスピーカーでいろいろ開発しようと思うと、巨大なプラットフォーマーによってコントロールされている部分が大きいので、いろいろ制約が出てきます。例えば、

家庭内で購入者が使う前提であり、公共の場で不特定多数が利用することは想定されていない（というか多分規約的にNG）
カメラ付きデバイスであっても、カメラへのアクセスはプラットフォーム以外は許可されていない。
ユーザの発話のログを取ることはできない。
USでGAとなっている機能でも日本向けには提供されていない場合がある。

あたりはまあみんななんとかしてほしいと感じていると思います。めっちゃわかる。

逆にプラットフォームの立場に立ってみれば、いろいろ難しい面もあるだろうし、上記に上げた理由とかだとプライバシーの懸念が特に大きいのも理解できます。

ただそこで諦めるのか、という話ですね。

例えば、Alexaの要望をあげる「User Voice」という掲示板。

日本

USと日本では規模も違うので単純に比較するのはいろいろ正しくないとは思いつつも、パッと見でわかるとおり、

日本のユーザの声は少なすぎるのではないか？
要望の投稿はしなくても、投票するだけもできるはず。でもこれも少ないのではないか？

というふうに思えますよね。

個人としても何度か要望上げたり他の要望に投票もいくらかはやってるけど、じゃあそれで十分だったか？と言われると全然足りないでしょうし、この点については自分自身も大いに反省すべきだと思っていますが、ただこの量を見る限り、ここを見たことない、書いたことない、という開発者のほうが圧倒的に多いのではないかなと感じています。

これめちゃめちゃ大事です。

ちゃんとフィードバックしないと「意見が無いんだね。＝満足してくれてるんだ」って思われる。意見があるなら、ちゃんとフィードバックしよう！ ←重要ですねー。
#o365jp pic.twitter.com/3xVLQanmvX
— やま (Yama) (@yamad365) 2021年11月13日

そしてこれも。

妙に伸びているので補足しておきますが「フィードバックするチャネルがあるから活用しましょ」というセッションのイチ場面です。
世界規模で展開してる製品で、フィードバックチャネルがあるのに意見すくなかったら･･･という例です。気づいた改善点や賞賛などは、是非とも伝えましょう、ですね。
— やま (Yama) (@yamad365) 2021年11月13日

Twitterでつぶやくとか、中の人に会ったときに話すとか、声を伝える方法は他にもあるとは思うのですが、正規のルートでやるのが筋かなと思っています。プラットフォーム側もいろんなところでいろいろ投げられても拾えないと思うので。

ただ、開発者フォーラムも含めて掲示板のシステムがとても使いにくいのでマメに使う気にならないのはわかりますし、挙げてもレスポンスないと続けにくいのもわかります。このへんはプラットフォーム側にもっとなんとかしてほしいという思いはあります。

気がついたことはガシガシ要望挙げて、必ずしも実現されるかはわからないけど、ニーズが高ければそれをクリアする方向で検討する余地も出てくると思うので、プラットフォームを動かすぐらいの気持ちで行くべきだったなと再認識してます。

4. コロナによる機会喪失

コロナ禍によりスマートスピーカーの利用率は上がった、と言われていて、これについては数字にようなものもどこかに出ていたので真実だと思っています。ただ、個人的には逆に大きな機会を喪失したと思っています。それが「東京オリンピック」です。

個人的に勝手に期待していたのは以下です。

東京オリンピックによる外国人環境客の増加が見込まれる。
外国人観光客向けの観光施設・宿泊施設島における通訳や観光案内等において人員不足が見込まれる
バイリンガルに対応したスマートスピーカーによる一次受けによる人員不足

予めお伝えしておくと、Amazon Echoの規約上はあくまでも個人利用用途だと思うので、この使い方はグレー（というか多分NG）だと思います。ただそれを置いといても、導入・構築実績を得るいい機会だったと思うのですね。

実際にこういうソリューションもありますし、

私も過去体験してきました。

いろんなサービス化というかマネタイズの方法はあると思います。個人的にはこういうSI的・パッケージ的な案件にはあまり将来性を感じない部分もあって、（まあ東京オリンピック終わったら焼け野原になることが多分に予想されます）、もっときちんとサービスとして成り立たせるほうが望ましいとは思います（スキル内課金とかAmazon Pay連携とかそういうやつですね）

ただ、SI的・パッケージ的な短期の案件でもいいので導入（成功）事例がほしかったなーとつくづく思います。なぜかというと成功事例があれば後に続きやすいからです。個人的な経験則だと、成功事例のないチャレンジングな案件に対しては非常にハードルが高いと思っています、特に日本国内では。

ただ、この部分については今後期待できると思っています。Amazon公式でも以下のようなサービス展開が始まっています。

・ホテルや様々な施設向け（Alexa Smart Properties）

・集合住宅向け（Alexa Smart Propertiesの前身であるAlexa for Residential）

・Alexa Smart Propertiesを活用した、イギリスのロイヤルアスコット競馬場のボックスシートでの導入事例 www.linkedin.com

開発者やプロバイダーが成り立つようなビジネスを考えた場合、ターゲットが広すぎる家庭向けのBtoCよりも、ターゲットごとにメリットを打ち出しやすい法人向けBtoB/BtoBtoCのほうが「現実的」「短期的」に成り立たせやすいと考えています。なのでこういったソリューションをぜひ日本でも展開してほしいですね。

前職ではこういうソリューションを作って売る側でした。元々スマートスピーカーに興味を持ったのはその中で活用したかったのですよね。なので、この辺の話には個人的に強い思いがあります。まあその後転職しちゃったんですけどね。

最後に

数年前に私がスマートスピーカーに感じた夢や可能性については今でも信じています。夢や可能性を感じれるというのはとても大事なことです。そういうところに人は集まりますしね。やってて楽しいも当然必要です。

ただし、夢や楽しさだけで食べていけるわけではないですし、こういうことがいつかできたら・・・は今すぐできることでもなければ、それがいつかできるようになる保証もないです。

したがって、

今できること
いつかできること

は両方考えないとダメで、かつ、どちらの場合もどうすればお金をもらえるか？を考えないといけないと思っています。仕事にするならお金が得られないと続けられませんし、趣味の範囲で楽しくやりたいだけだとしてもプラットフォームが儲けれなければ結局続けられないということもありうるわけです。お金は超大事です！

もっと地に足つけて現実的に儲けれるやり方考えてやっていこうぜ！
プラットフォーマーにも依存しすぎないようにして、いろいろ手広くやっていこうぜ！
そして楽しくやっていこうぜ！

これをすべて叶えれるようにバランスよくやっていきたいです。ビジネス観点をもって音声の可能性を追求したいという方、これからも一緒に頑張りましょう！

kun432's blog

Alexaなどスマートスピーカーの話題中心に、Voiceflowの日本語情報を発信してます。たまにAWSやkubernetesなど。