kun432's blog

Alexaなどスマートスピーカーの話題中心に、Voiceflowの日本語情報を発信してます。たまにAWSやkubernetesなど。

〜スマートスピーカーやVoiceflowの記事は右メニューのカテゴリからどうぞ。〜

#VUIchallenge #020 - Desserts and lists

f:id:kun432:20210711001052p:plain

#VUIchallengeの第20回です。テーマは「Desserts and lists」。

過去の#VUIchallengeの記事はこちら

お題

The challenge

Design three different alternatives to the following experience:
"I have chocolate cake, carrot cake, Wildberry flan, salad fruit, brownies, muffins, tiramisu, apples, bananas, and pineapple. Which one would you like for dessert?"

Jesús' Tips

Lists are super important in VUI design. Think about the use case and about the different users you can have and what they are willing to achieve. Remember, there's never a single solution but one that is better than the rest.

DeepLによる日本語訳

課題

次のような体験に対して、3つの異なる代替案をデザインしてください。
「チョコレートケーキ、キャロットケーキ、ワイルドベリーのフラン、サラダフルーツ、ブラウニー、マフィン、ティラミス、りんご、バナナ、パイナップルがあります。デザートはどれにしますか?」

Jesúsのヒント

リストはVUIデザインにおいて超重要です。ユースケースを考え、さまざまなユーザーがいて、彼らが何を達成しようとしているのかを考えましょう。単一の解決策ではなく、他よりも優れた解決策があることを忘れないでください。

前提

デザートがおいしそうですが、今回も「リスト」がテーマです。リストについては過去のチャレンジでも出てきていましたね。

では、まずは前提条件を立てましょう。前提条件を複数考えることもできると思いますが、とりあえず一つで。

会話のゴール

  • デザートをなるだけかんたんに注文するための会話

想定されるユーザのペルソナ

  • 若い女性
  • 食後のデザートを楽しみにしている、別腹ですねw
  • チョコレートも生クリームもフルーツも全部好きw

いつどこで使われるか?

  • レストラン
  • ちょうど食事を済ませたところ
どのデバイスで使われるか?
  • レストランに席上に置いてあるスマートスピーカー

スキルの特徴・個性は?

  • たくさんのチョイスがある中で、シンプルに選択できる
    • このやり方を考えるのが今日のテーマ

ビジュアル

  • 不要です、だってこれから目にも美味しそうなデザートが出てくるんですし、想像力を大切にしたいですよね

デザイン

ということで、今回はいくつかのプランを考えたいと思います。

デザイン1

まずは過去のチャレンジを参考にしてみましょう。リストは3〜5というのが認知的負荷を考えると最適なのでした。それに合わせてみましょう。

アレクサ、デザートを注文して

わかりました。デザートは10種類あります。チョコレートケーキ、キャロットケーキ、ワイルドベリーのフランがあります。他のデザートも聞きますか?

うん、お願い

他には、サラダフルーツ、ブラウニー、マフィン、ティラミスもあります。まだ続きを聞きますか?

あとは、りんご、バナナ、パイナップルがあります。デザートは以上です。どれにしますか?

3〜4つずつなら覚えれそうですね。そのなかで一つお気に入りを選んで、繰り返しの中で好きなものを3つまで絞り込めれば、認知的負荷も最小にできそうですね。ただ、早く食べたい!という人はちょっとイラッとするかもしれませんね。逆に、デザートはどれも大好き、という人だと、いや、きちんと吟味したい、と思う人もいるかもしれませんけどw

一通り全部聞いておきたい、という人にはこれがいいかなと思います。

デザイン2

こちらのほうでは、前提条件にある「レストランで食事を済ませたところ」というのを少し踏まえて、食事の内容を参考に「デザートを提案する」形にしてみましょう。

アレクサ、デザートを注文して

わかりました。デザートは10種類あります。先ほどは仔牛のステーキをお召し上がりになられたましたね。濃厚な肉料理のあとはさっぱりしたフルールなんてどうでしょう?今の旬でおすすめなのは、りんご、か、パイナップルですが、いかがですか?それとも他のデザートも聞きますか?

この場合、最初の食事をきちんと記憶している、ということが重要になります。それを踏まえた上で、もしお客様のお好みにマッチするようであれば、早く食べたいという気持ちを抑えることもなく、とても気の利いた感じになりますよね。マッチしない場合はデザイン1と同じような感じになると思います。

あと、これなら画面付きデバイスでデザートの写真などを表示するのも効果ありそうです。

デザイン3

今度は絞り込むようにしてみましょう。今回10種類のケーキがありますが、以下のように3つのカテゴリーに分けてみたいと思います。

  • 濃厚なチョコレートベース
    • チョコレートケーキ、ブラウニー、ティラミス
  • 甘さ控えめなスイーツ
    • キャロットケーキ、ワイルドベリーのフラン、マフィン
  • さっぱりしたフルーツ
    • りんご、バナナ、パイナップル

バナナがさっぱりしているか、は置いといてw、これをベースに絞り込むような会話にしてみましょう。

アレクサ、デザートを注文して

わかりました。デザートは全部で10種類あります。大きく分けると、濃厚なチョコレートベースのもの、甘さ控えめなスイーツ、さっぱりしたフルーツがあります。どれがお好みですか?

チョコレート系が好きかなー

チョコレートベースのデザートは、チョコレートケーキ、ブラウニー、ティラミスの3種類です。お好みのものはありますか?それとも他のものを聞きますか?

デザイン1と2の折衷案って感じですね。気分や好みから、カテゴリーを大まかに絞り込んで、そこから選んでもらう、という感じです。これだとお客様の期待を大きく外れることはないかなと思います。

ただ、個人的にはこれだったらなんとなく1のほうがいいかな。1は単純な羅列なので、全てのメニューがフラットに思えます(ただし認知的負荷は高い)。こっちは最初に絞り込めるのでいいんですけど、最初の選択をミスったなーとかと思ったりすると、結局全部聞きたくなる気がしました。なのでちょっと中途半端な印象に思えたのが理由です。みなさんはどうでしょうか?

まとめ

今回の3つだとやっぱり2がいいかなと思います。食事の後のデザートはとても楽しみですが、個人的には早く食べるのを優先したいし、全部のメニュー見たら余計に悩みそうw

好みにマッチするかどうか、というところがややリスクになりますが(濃厚な肉料理のあとでも濃厚なチョコレートを食べたいという人には合わないでしょう)、パチっとハマればものすごく気の利いた感じに思えそうですし、やりとりも最小、自分で考えなくても提案してくれる、というのはとてもAI的でいいなと思います。

Alexa Liveでも強く押されていた「プロアクティブ」というところを実現するには、いかにパーソナライズされたおすすめにできるかどうか、そのための情報をどれだけ事前に持てるかはキーになりそうな気がします。

#VUIchallenge #019 - Farts...

f:id:kun432:20210711001052p:plain

#VUIchallengeの第19回です。テーマは「Farts...」。

過去の#VUIchallengeの記事はこちら

お題

The challenge

Not the nicest experience bur fart actions and skills are super common in the VUI world. Users request them all the time. What features can you add to this super simple experience?

Jesús' Tips

Did you know that a farts app was the first one to make one million dollars in Android? Don't underestimate the use case and get creative on how you can add value here.

DeepLによる日本語訳

課題

おならのアクションやスキルは、VUIの世界では非常に一般的なものです。ユーザーからのリクエストも絶えません。この超シンプルな体験にどんな機能を追加できますか?

Jesúsのヒント

おならアプリが、Androidで初めて100万ドルを稼いだことを知っていますか?ユースケースを過小評価せず、ここにどうやって価値を付加できるかクリエイティブに考えてみましょう。

前提

ということで今回のテーマは「おなら」ですw。確かにiOSにもAndroidにもアプリありますね。そんなに売れたとは知りませんでしたが。では前提条件です。

会話のゴール

  • おならの音を再生する、そして楽しい

想定されるユーザのペルソナ

  • 比較的若い、子供もありうる
  • 楽しいこと、おかしなことが好き
  • とりあえず笑いたい

いつどこで使われるか?

  • 自宅
  • スマホアプリならモバイルもあり得るけど、音声だとちょっと厳しいかも
どのデバイスで使われるか?
  • 自宅にあるスマートスピーカー

スキルの特徴・個性は?

  • 基本はおならの音が再生される
  • ここにいろんな機能を追加する

ビジュアル

  • 不要、音を楽しもう

デザイン

ということで、これもある種サウンドスキルの一つになります。ただし、とてもおならの音はさすがに数分かかるほど長くはないので、前回のAudioPlayerとは違って、インタラクションが可能ですね。まずは一旦基本を作ってみましょう。

アレクサ、おならサウンドをひらいて

おならサウンドです。おならをするよ!(効果音:プゥ〜)

うん、とてもシンプルですねw。シンプルなので、いっそ発話をなくしてしまってもいいかもしれませんね。ではここにどういう機能をつけれるか考えてみましょう。

バリエーションを用意する

おならにも色んなバリエーションがありますよね。

  • 短いおなら
  • 長いおなら
  • 高い音のおなら
  • 低い音のおなら
  • 勢いのあるおなら
  • 絞り出すようなおなら

こういったいろんなバリエーションのおならを再生できる、というのは一つ面白いかもしれません。

アレクサ、おならサウンドをひらいて

おならサウンドです。このスキルではいろんな種類のおならの音が聞けるよ!例えば、短いおなら、長いおなら、高い音のおなら、などがあります。どんなおならが聞きたいですか?

長いおなら

長いおならです。(効果音:プゥ〜〜〜〜〜〜〜)次はどんなおならを聞きたいですか?

勢いのあるおなら

勢いのあるおならです。(効果音:ブゥーッ!!!)次はどんなおならを聞きたいですか?

おなら語で会話

何か話しかけると、全部おならで返してくれるというものです。なんのことやらと思うかもですがw

アレクサ、おならトークをひらいて

おならトークです。このスキルではおならで会話ができるよ。なんでも好きなことを話してみてね。

今日は疲れたよー

(効果音:プゥ〜、ププッ、ブー!)(リング点灯)

お腹もすいたよー

(効果音:プッ、プププ、ブブー!)(リング点灯)

全然会話になっていませんがw、こういうの子供は案外喜んだりしますよね。真面目に会話っぽくおなら音を組み合わせて返すと面白いかもしれません。 VUIとしてみた場合はちょっと疑問ですが、ジョークとしては面白そうな気はします。(審査通るのかはわかりませんが)

ちなみにAlexaで自由発話を受け取るのはなかなか難しいです。以前はSearchQueryスロットタイプを使って、ちょっとした裏技で実現できましたが、今はもうできないかもしれません。

おならで音楽

これもなんのことやら、ですが、いろいろなおなら音を用意しておいて、音階を作って曲にしちゃうというのもおもしろそうです。

アレクサ、おならソングをひらいて

おならソングです。このスキルでは色んな曲をおならで再生するよ。今聞けるのは、ちょうちょ、さくら、ぞうさんの3曲です。どれを聞きますか?

さくらをかけて

(効果音:プッ、プッ、プーー、プッ、プッ、プーー、プープープー・・・)おならによるさくらでした。

こちらは前回同様、AudioPlayerスキルにすればよいですね。

その他

他にも色々考えられますね。例えば、Alexaスキルのカテゴリーを順に見ていくだけでも、

  • おならに関する雑学をランダムに教えてくれるスキル
    • いわゆるトリビアですね、定番
  • おならが出た回数を記録するスキル
    • ヘルスケアになるのかな、記録系も定番ですね。
  • おならの音の特徴から健康状態を判定するスキル
    • いろいろ判断材料が必要そうです
    • 医療行為としての診断にするとNGになるはず
    • おならの音を聞き取ってはくれないので、ユーザに特徴を話してもらう感じになりそうですね。

あたりは思いつきそうです。

まとめ

今回もアイデア出しがメインになりましたが、ヒントにも書いてある通り、おなら関連のアプリやスキルはたくさんあるんですよね。しかもかなりのレビュー数も稼いでるものもあったり。

テーマとしては、年齢層問わずに、とても人気があるものなんだろうとと思います。ただ、すでにたくさんのアプリが存在しているわけなので、それらと差別化を図るような要素がないと難しいですね。

  • 既存にない斬新な機能
  • 機能的には既存と変わらないけど、使用感が大幅に洗練されている

あたりが必要になルキがしますし、あと、スマホアプリだとタップが使えるので、ブーブークッション的にこっそり使う、みたいなユースケースがありますが、音声の場合は声を出さないといけないので、そういう使い方はそもそも難しいです。サウンドを使うという点では音声と親和性がありそうなので、「音声ならでは」のなにかおもしろいユースケースが見つけれるといいですね!

#VUIchallenge #018 - Sound experience

f:id:kun432:20210711001052p:plain

#VUIchallengeの第18回です。テーマは「Sound experience」。

過去の#VUIchallengeの記事はこちら

お題

The challenge

A sound experience can be a super simple one: users request to play a sound and the sound starts playing. Define the details for your use case: how long will the sound last? Will you add anything when the sound is about to end? Any further feature you can add to your experience?

Jesús' Tips

Take into account what users will want to do with the sound. Is it for relax? Sleeping? Making fun? Depending on the exact use case and the scenario you will be able to add features to improve the experience.

DeepLによる日本語訳

課題

サウンド体験は、ユーザーがサウンドの再生をリクエストすると、サウンドが再生されるという非常にシンプルなものです。ユースケースに合わせて詳細を定義します:サウンドの持続時間は?サウンドが終わりそうになったら、何かを追加しますか?さらに何か追加できる機能はありますか?

Jesúsのヒント

ユーザーがその音で何をしたいのかを考慮しましょう。リラックスしたいのか?眠るため?楽しむため?正確なユースケースとシナリオに応じて、体験を向上させるための機能を追加することができます。

前提

では前提をまず設定しましょう。サウンドスキルはいろいろな使い方がありますが、用途に応じて必要な機能が変わると思います。以下の用途で考えてみましょう。

  • 1.「睡眠」のためのサウンドスキル
  • 2.「集中・リラックス」するためのサウンドスキル

1. 「睡眠」のためのサウンドスキル

会話のゴール
  • 睡眠への導入となる音楽をかける
想定されるユーザのペルソナ
  • 眠る前に使いたい。
  • あまり細かいことを考えたくない(寝る前なので)
いつどこで使われるか?
  • 自宅
  • 寝る前
どのデバイスで使われるか?
  • 自宅にあるスマートスピーカー
スキルの特徴・個性は?
  • シンプルな機能とインタラクション
    • 眠るまでの時間、30分程度再生する
    • 30分再生した後、停止する。繰り返しのための機能は不要。
    • インタラクションはほぼ不要
  • 再生する音楽はランダムとする。
ビジュアル
  • 不要
デザイン

睡眠のためのサウンドスキルでは、寝ることが目的です。眠る前なのであまり凝ったインタラクションは不要ですし、眠りを中断してなにかの対話を求めるのは本末転倒です。したがって、以下のようになると思います。

アレクサ、おやすみサウンドをひらいて

今日も一日お疲れさまでした。ゆっくりとお休みください。

(サウンド再生)

(30分後)

(ささやき声で)おやすみなさい。良い夢を。

ちなみに、Alexaの場合、こういった長時間のサウンド再生は"AudioPlayer"インタフェースを使うことになります。AudioPlayerを使うと、サウンドの再生は、Echoデバイスのビルトインオーディオプレイヤーが曲を再生などを制御します。スキルからすると、このオーディオプレイヤーの「キュー」に再生する曲を追加するだけで、直接サウンドを再生しているわけではなく、セッションも切れています。したがって、曲の再生が終了したあとに、発話させる、ということは(多分)できません。上記のようにサウンドの最後に発話を行わせたい場合は、

  • 「アレクサ、次の曲」「アレクサ、前の曲」「アレクサ、ストップ」「アレクサ、一時停止」などのインタラクションが必要(それぞれのインテントが呼び出されスキルにセッションが戻ります)
  • 発話内容もオーディオファイルにしておいて、睡眠用サウンドのあとにくっつける(一つのオーディオファイルにするイメージ)

が必要になるかと思います。このあたりは、プラットフォームごとの実装上の制約もありますね・・・

あと、おまけですが、Alexaには「ささやき」に対応した独自のSSMLタグがあります。うまく使うと良い感じになりそうですね。

developer.amazon.com

2. 「集中・リラックス」するためのサウンドスキル

会話のゴール
  • リラックス・集中するための音楽をかける
想定されるユーザのペルソナ
  • 集中したい、リラックスしたい
  • 集中・リラックスの状態に入るまでにちょっと時間がかかる
  • 集中の場合
    • 今からコードを書こうと思うプログラマーとか
    • 今から受験勉強をしようと思う学生とか
  • リラックスの場合
    • 今からヨガをしたいとか
    • ちょっと休憩したいとか
いつどこで使われるか?
  • 自宅
  • 机の前
どのデバイスで使われるか?
  • 自宅にあるスマートスピーカー
スキルの特徴・個性は?
  • 再生時間は短め
    • 数分程度
    • 再生が終了したら、繰り返す
      • ポモドーロタイマー的にはインタラクションを挟んでも良いと思う
  • インタラクションはいくつか必要
    • 集中・リラックスできるか?はユーザのその時の気分次第。それにあわせて違う曲を選べるようにする。
    • 終了した場合には、終了するか?繰り返すか?をユーザに確認する
    • 一時停止なども受け付ける
ビジュアル
  • 基本的には不要
  • ただ、現在再生中の音楽などを知りたいというニーズはあるかも。その場合には曲情報を表示しても良さそう。
デザイン

集中・リラックスするためのサウンドスキルは、「何かをやりながらBGM的に使いたい」という場合にが多いかと思います。「Amazon Musicで◯◯をかけて」というのも広い意味だとこれになります。なので、一度再生してしまうとインタラクションが発生しない睡眠サウンドとは違って、ある程度のインタラクションが行われます。上記に書いたように、

  • ユーザの好みに合わせて、違う曲を選べるようにする。
  • 終了した場合には、終了するか?繰り返すか?をユーザに確認する
  • 一時停止など

あたりのインタラクションは想定しておきましょう。

アレクサ、サウンドプレイヤーをひらいて

どちらのサウンドがご希望ですか?集中タイプ?リラックスタイプ?

集中タイプ

わかりました。では集中タイプのサウンドを再生します。

(サウンド再生)

(45〜60分後)

集中タイム、お疲れさまでした。続けて別のサウンドを再生する場合は「アレクサ、続けて」と言ってください。

アレクサ、続けて

(別のサウンドを再生)

繰り返しになりますが、再生終了後のインタラクションは実装に依存します。Alexaだと曲と曲の間にインタラクションを挟むことは難しい(Googleはちょっとわかりません。)ので、上記の例では1曲ごとに終了させて、再度スキルを起動するような感じにしてます。最後の発話もオーディオで行う必要があります。

逆に延々とループさせることは可能です。この場合は、「停止」する場合は必ずユーザがインタラクションを行う、という感じになります。

アレクサ、サウンドプレイヤーをひらいて

どちらのサウンドがご希望ですか?集中タイプ?リラックスタイプ?

リラックスタイプ

わかりました。ではリラックスタイプのサウンドを再生します。

(サウンド再生)

(45〜60分後)

(別のサウンド再生)

(以後繰り返し)

アレクサ、ストップ

(サウンド停止)

1回づつ終わらせるか、延々とループさせるかは、目的によって変わるかなと思いました。集中が目的なら一定時間で休憩を挟んだほうが良いでしょうし、リラックスが目的ならユーザの気の済むまで継続させたほうが良いかなと思います。

まとめ

うーん、今回のお題は、VUIデザインという観点だけからデザインすることは正直難しかったです。

一般的な音声アプリでは、会話セッションが開かれて、このセッション内で短いターンのインタラクションを繰り返す、というのが前提となりますが、サウンド視聴が目的の場合、一度曲が再生されればインタラクションはほぼ不要、かつ、一定時間は放置する(再生しっぱなし)という使い方になります。

このようなサウンド視聴のユースケースに対しては、各プラットフォームごとにオーディオ再生専用のインタフェースが用意されていますが、このオーディオ再生専用インタフェースの独自仕様や制約が存在するため、ユーザエクスペリエンスが大きく変わってきます。つまり、会話デザインだけ考えればよいというわけではなくて、そのインタフェースの仕様や制約も意識した上でデザインを行う必要があるということですね。

場合によっては、このオーディオ再生インタフェースを使わないやり方のほうが最適な場合もあるかもしれませんね(それはそれで制約がありますが)

上記の違いについてもう少し突っ込んで書きたかったのですが、めちゃめちゃ長くなりそうなので、詳しくは過去の記事をご覧ください。