kun432's blog

Alexaなどスマートスピーカーの話題中心に、Voiceflowの日本語情報を発信してます。たまにAWSやkubernetesなど。

〜スマートスピーカーやVoiceflowの記事は右メニューのカテゴリからどうぞ。〜

#VUIchallenge #018 - Sound experience

f:id:kun432:20210711001052p:plain

#VUIchallengeの第18回です。テーマは「Sound experience」。

過去の#VUIchallengeの記事はこちら

お題

The challenge

A sound experience can be a super simple one: users request to play a sound and the sound starts playing. Define the details for your use case: how long will the sound last? Will you add anything when the sound is about to end? Any further feature you can add to your experience?

Jesús' Tips

Take into account what users will want to do with the sound. Is it for relax? Sleeping? Making fun? Depending on the exact use case and the scenario you will be able to add features to improve the experience.

DeepLによる日本語訳

課題

サウンド体験は、ユーザーがサウンドの再生をリクエストすると、サウンドが再生されるという非常にシンプルなものです。ユースケースに合わせて詳細を定義します:サウンドの持続時間は?サウンドが終わりそうになったら、何かを追加しますか?さらに何か追加できる機能はありますか?

Jesúsのヒント

ユーザーがその音で何をしたいのかを考慮しましょう。リラックスしたいのか?眠るため?楽しむため?正確なユースケースとシナリオに応じて、体験を向上させるための機能を追加することができます。

前提

では前提をまず設定しましょう。サウンドスキルはいろいろな使い方がありますが、用途に応じて必要な機能が変わると思います。以下の用途で考えてみましょう。

  • 1.「睡眠」のためのサウンドスキル
  • 2.「集中・リラックス」するためのサウンドスキル

1. 「睡眠」のためのサウンドスキル

会話のゴール
  • 睡眠への導入となる音楽をかける
想定されるユーザのペルソナ
  • 眠る前に使いたい。
  • あまり細かいことを考えたくない(寝る前なので)
いつどこで使われるか?
  • 自宅
  • 寝る前
どのデバイスで使われるか?
  • 自宅にあるスマートスピーカー
スキルの特徴・個性は?
  • シンプルな機能とインタラクション
    • 眠るまでの時間、30分程度再生する
    • 30分再生した後、停止する。繰り返しのための機能は不要。
    • インタラクションはほぼ不要
  • 再生する音楽はランダムとする。
ビジュアル
  • 不要
デザイン

睡眠のためのサウンドスキルでは、寝ることが目的です。眠る前なのであまり凝ったインタラクションは不要ですし、眠りを中断してなにかの対話を求めるのは本末転倒です。したがって、以下のようになると思います。

アレクサ、おやすみサウンドをひらいて

今日も一日お疲れさまでした。ゆっくりとお休みください。

(サウンド再生)

(30分後)

(ささやき声で)おやすみなさい。良い夢を。

ちなみに、Alexaの場合、こういった長時間のサウンド再生は"AudioPlayer"インタフェースを使うことになります。AudioPlayerを使うと、サウンドの再生は、Echoデバイスのビルトインオーディオプレイヤーが曲を再生などを制御します。スキルからすると、このオーディオプレイヤーの「キュー」に再生する曲を追加するだけで、直接サウンドを再生しているわけではなく、セッションも切れています。したがって、曲の再生が終了したあとに、発話させる、ということは(多分)できません。上記のようにサウンドの最後に発話を行わせたい場合は、

  • 「アレクサ、次の曲」「アレクサ、前の曲」「アレクサ、ストップ」「アレクサ、一時停止」などのインタラクションが必要(それぞれのインテントが呼び出されスキルにセッションが戻ります)
  • 発話内容もオーディオファイルにしておいて、睡眠用サウンドのあとにくっつける(一つのオーディオファイルにするイメージ)

が必要になるかと思います。このあたりは、プラットフォームごとの実装上の制約もありますね・・・

あと、おまけですが、Alexaには「ささやき」に対応した独自のSSMLタグがあります。うまく使うと良い感じになりそうですね。

developer.amazon.com

2. 「集中・リラックス」するためのサウンドスキル

会話のゴール
  • リラックス・集中するための音楽をかける
想定されるユーザのペルソナ
  • 集中したい、リラックスしたい
  • 集中・リラックスの状態に入るまでにちょっと時間がかかる
  • 集中の場合
    • 今からコードを書こうと思うプログラマーとか
    • 今から受験勉強をしようと思う学生とか
  • リラックスの場合
    • 今からヨガをしたいとか
    • ちょっと休憩したいとか
いつどこで使われるか?
  • 自宅
  • 机の前
どのデバイスで使われるか?
  • 自宅にあるスマートスピーカー
スキルの特徴・個性は?
  • 再生時間は短め
    • 数分程度
    • 再生が終了したら、繰り返す
      • ポモドーロタイマー的にはインタラクションを挟んでも良いと思う
  • インタラクションはいくつか必要
    • 集中・リラックスできるか?はユーザのその時の気分次第。それにあわせて違う曲を選べるようにする。
    • 終了した場合には、終了するか?繰り返すか?をユーザに確認する
    • 一時停止なども受け付ける
ビジュアル
  • 基本的には不要
  • ただ、現在再生中の音楽などを知りたいというニーズはあるかも。その場合には曲情報を表示しても良さそう。
デザイン

集中・リラックスするためのサウンドスキルは、「何かをやりながらBGM的に使いたい」という場合にが多いかと思います。「Amazon Musicで◯◯をかけて」というのも広い意味だとこれになります。なので、一度再生してしまうとインタラクションが発生しない睡眠サウンドとは違って、ある程度のインタラクションが行われます。上記に書いたように、

  • ユーザの好みに合わせて、違う曲を選べるようにする。
  • 終了した場合には、終了するか?繰り返すか?をユーザに確認する
  • 一時停止など

あたりのインタラクションは想定しておきましょう。

アレクサ、サウンドプレイヤーをひらいて

どちらのサウンドがご希望ですか?集中タイプ?リラックスタイプ?

集中タイプ

わかりました。では集中タイプのサウンドを再生します。

(サウンド再生)

(45〜60分後)

集中タイム、お疲れさまでした。続けて別のサウンドを再生する場合は「アレクサ、続けて」と言ってください。

アレクサ、続けて

(別のサウンドを再生)

繰り返しになりますが、再生終了後のインタラクションは実装に依存します。Alexaだと曲と曲の間にインタラクションを挟むことは難しい(Googleはちょっとわかりません。)ので、上記の例では1曲ごとに終了させて、再度スキルを起動するような感じにしてます。最後の発話もオーディオで行う必要があります。

逆に延々とループさせることは可能です。この場合は、「停止」する場合は必ずユーザがインタラクションを行う、という感じになります。

アレクサ、サウンドプレイヤーをひらいて

どちらのサウンドがご希望ですか?集中タイプ?リラックスタイプ?

リラックスタイプ

わかりました。ではリラックスタイプのサウンドを再生します。

(サウンド再生)

(45〜60分後)

(別のサウンド再生)

(以後繰り返し)

アレクサ、ストップ

(サウンド停止)

1回づつ終わらせるか、延々とループさせるかは、目的によって変わるかなと思いました。集中が目的なら一定時間で休憩を挟んだほうが良いでしょうし、リラックスが目的ならユーザの気の済むまで継続させたほうが良いかなと思います。

まとめ

うーん、今回のお題は、VUIデザインという観点だけからデザインすることは正直難しかったです。

一般的な音声アプリでは、会話セッションが開かれて、このセッション内で短いターンのインタラクションを繰り返す、というのが前提となりますが、サウンド視聴が目的の場合、一度曲が再生されればインタラクションはほぼ不要、かつ、一定時間は放置する(再生しっぱなし)という使い方になります。

このようなサウンド視聴のユースケースに対しては、各プラットフォームごとにオーディオ再生専用のインタフェースが用意されていますが、このオーディオ再生専用インタフェースの独自仕様や制約が存在するため、ユーザエクスペリエンスが大きく変わってきます。つまり、会話デザインだけ考えればよいというわけではなくて、そのインタフェースの仕様や制約も意識した上でデザインを行う必要があるということですね。

場合によっては、このオーディオ再生インタフェースを使わないやり方のほうが最適な場合もあるかもしれませんね(それはそれで制約がありますが)

上記の違いについてもう少し突っ込んで書きたかったのですが、めちゃめちゃ長くなりそうなので、詳しくは過去の記事をご覧ください。