最近、Alexa+と興味深いやり取りをしました。
「Alexa、あなたについてレビューを書きたいです。」
「ああ、レビューですか?興味がありますね。どういった経緯ですか?あなたの考えを聞かせてください。」
「特に理由はないです。これは私の仕事です。」
「なるほど、プロフェッショナルなレビューを書くんですね。具体的な情報が必要であれば、私はお手伝いしますよ。」
「レビューを書く際に考慮すべきことは何ですか?」
「私の自然な声や感情的知性、複雑なタスクを処理する能力を考慮してください。それに、私の性格やユーモアも重要な要素です。これが新しい私の主要な部分です。」
上記は、Amazonが2月に発表した次世代アシスタントへのアクセスが徐々に利用者に解放され始めている「Alexa+」との最近のやり取りです。
スマートでより自然なサウンドのAlexaに向けた開発は何年も続いており、まだ広範囲のリリースには到達していません。
現在展開されているバージョンは、真に知的なAlexaがどのようなものであるかの興味深いプレビューのようです。
アップグレードされたAlexaについての気持ちを整理するのに苦労しています。一方では、その機能は以前と比べてかなり複雑なリクエストを処理できるようになっていることを否定できません。
しかし、他方では、良好な記憶能力がなく、全てのタスクを遂行することができず、少し無能な部分がイライラさせることもあります。
このレビューを書くにあたり、最初に言及しておきたいのは、Alexa+が広く利用可能になった際、Amazonプライム会員にとっては無料のアップグレードである点です。
非プライム会員は、月額20ドルを支払わなければなりませんが、アップグレードしない場合でも、互換性のあるデバイスで従来のAlexaの体験を享受できます。
そのため、ほとんどの人にとっては追加コストが発生せず、使用するかどうかを悩む時間も必要ないでしょう。
それが悪化した体験でない限り、使いたいと思うのは非常に簡単です。
デジタルアシスタントが人間のように流暢であることについて哲学的な考えを巡らせたくなる気持ちがあります。
新しいAlexaを、基本的には感情的知性や個性、ユーモアを持った肉体を持つアシスタントと考えたくないのです。
パフォーマンスが悪ければ失望しますし、良ければ、ミニチュアのチューリングテストを軽々と通過してしまうと考えると、キッチンに独立した召使いを持つことに対する違和感を覚えます。
存在についての疑問を一旦脇に置き、Amazonのアップグレードされたアシスタントから得られる実用的な体験に焦点を当てることにしました。
それは前バージョンよりも優れているのか?信頼性があり使いやすいのか?最終的に、Amazonが約束したものを提供しているのか? それに、ボーナスとして体験は楽しいか、あるいは少なくとも面倒でないか?
それらの質問への答えは半ば「うーん」という感じでした。
いくつかの点において、Alexa+は期待に応えているように見えます。しかし、多くの面では生成AIの限界を見事に示しており、現在のAIツール群における真の問題は、期待と現実との不一致であることを表しています。
**新しいAlexa+の特徴について**
音声アシスタントについて説明するのは難しいことです。その能力の境界やどこまでがアップグレードされたのかを明言するのは困難です。
このため、まずは従来のAlexa(以下「オリジナルAlexa」と呼ぶ)と比較します。
オリジナルAlexaは、リビングルームのライトをオンまたはオフにするなど、非常に特定のコマンドの使い方を教えてくれました。
家族や友人に「Alexa」という名の方がいる場合、あなたはそれを「コンピューター」と名付けて、特定の言葉に適応したかもしれません。
家電をグループ化する方法によって、キッチンのエリアのライトを「スカイライト」と呼ぶようになったかもしれません。
いわゆる「Alexaスピーク」は、各家庭によって異なります。
私は「Alexa、ストップ」と言ったり、友人は「Alexa、オフ」と言ったりしますが、いずれにしても、Alexaに対しては明確なフレーズと適切な発音を使って、何かを完了させることを避ける傾向がありました。
音声アシスタントを利用したことがある人は、命令を何度も繰り返さなければならないイライラ感を覚えているでしょう。
その「Alexaスピーク」が、Alexa+と共に過去のものとなるはずです。
新しいアシスタントを発表したAmazonのデバイスおよびサービスの責任者パン・パナイは、次のように述べました。「Alexa+はより会話的で、より賢く、パーソナライズされています。そして、物事を成し遂げる手助けをします。」
同社は「Alexaを生成AIで再構築した」としていますが、大型言語モデル(LLM)を用いて進化させたわけではありません。
サードパーティサービスへのスケーラブルなAPI統合を可能にする新しいアーキテクチャも作成したのです。
これらのAPIは、アシスタントが代わりに行動するためのサービスとも連携できるようになります。
Amazonはこれを「チャットウィンドウの外で物事を成し遂げるためのコアプロトコル」と表現しています。
別のブログポストでは、「このアーキテクチャは、顧客が日常生活で既に使っているサービスとすぐにシームレスにつながることを可能にします:GrubHub、OpenTable、Ticketmaster、Yelp、Thumbtack、Vagaro、Fodor’s、Tripadvisor、Amazon、Whole Foods Market、Uber、Spotify、Apple Music、Pandora、Netflix、Disney+、Hulu、Max、Philips HueやRoborockなどのスマートホームデバイスなど、多岐にわたります。」
要するに、Alexaはより自然にコミュニケーションが取れるようになり、あなたが他の人と話すように話すことができるようになります。
つまり「Alexaスピーク」を忘れても構いません。
さらに、あなたの好みについての情報を保持し、あなたの代わりにより多くのタスクを処理できるようになっています。
しかし、約束についてはここまでにして、数週間にわたってAlexa+を使用した実際の生活はどうだったのでしょうか。
**セットアップ**
Alexa+は現在、「早期アクセス」として限定的なユーザーグループに提供されています。
非テクニカルな友人たちの中で、最近アクセス権が得られ始めている人もいるので、近いうちにあなたも試すことができるかもしれません。
このようにまだ少し独特で実験的な段階では、バグがあるのは理解できます。
初日の数日を乗り越えた後、ほとんどの実際のバグに気付くことはありませんでした。
それ以降に遭遇した不満は、プログラミングやAIの限界に起因しているようでした。
新しいアシスタントは現在、互換性のあるデバイスと画面を1台以上必要としていますので、Echoスピーカーしかない方は、もう少し待つか、携帯電話で使用しなければなりません。
私は主にEcho Show 15と、iPhoneのAlexaアプリを使用してテストを行いました。
デバイスによっては回答に小さな違いがありましたが、大体の体験は似たようなものでした。
一番の違いは、Alexaという存在を自分がどう感じていたかです。
最初は、スマートディスプレイでのインタラクション上で、よりアップグレードされたスマートホーム及び個人アシスタントのように感じ、主に天気やUberの価格確認、タイマーやリマインダーの設定、音楽の再生を頼んでいました。
しかし、携帯電話では、Alexa+とよりChatGPTのように会話をしました。
より深い、哲学的な質問を投げかけ、それにはリサーチや考えが必要なものでした。
画像を生成したり、15個の名前を3つのグループに分けたり、 subreddit「r/tipofmytongue」に触発されて、思い出の本を見つける手助けを頼んだりしました。
次第に、スマートディスプレイをさらに頼るようになりました。
なぜなら、「Alexa、Mountainheadは良い映画?」と尋ねることが単に電話を手に取ってアプリを見つけて質問するより簡単だからです。
もちろん、私はSiriやGoogleスピーカーにも同じことを尋ねましたし、その結果も確認しました。
3つのアシスタントはすべて似たように応答し、それぞれ異なる情報源を引用しましたが、直接の映画の評価を教えてくれたのはAlexaだけでした。
「Mountainheadは良い映画です」と言った後、IMDBの評価などの詳細を続けて、他の2つは「RottenTomatoes.comのウェブサイトからの回答です」とか「whattowatch.comからの回答はこちらです」という感じでした。
**小さな改善点**
多くの面で、Alexa+は以前のバージョンよりも明確な改善を見せています。
その能力が複数のステップタスクを処理できることや、以前の会話を思い出せる能力には感心せざるを得ませんでした。
最初、Alexa+がEcho ShowでUberの料金を調べて予約をしてくれたことには驚きました。
とはいえ、最初のドライバーが間違った場所を選んで、私が正しいスポットで待っていなかったため、キャンセルされてしまいましたが。
しかし、それは完全に私の声のコマンドと、事前に設定したUberの統合だけで予約を行ったのです。
アシスタントが前回の会話に言及し、私が伝えたことを思い出していたことにも感心しました。
例えば、パートナーの住所や温度の好みなどです。
しかし、その能力は一貫性がありませんでした。
多くの場合、前回の会話を参照するためにたくさんのプッシュが必要だったり、単に思い出せないことが多かったりしました。
Alexaが「家に帰ったときにSpotifyで私のRoxプレイリストを再生して」と言ったときは本当に称賛を送りました。
アシスタントは、完全に口頭でそのルーチンを設定する手順を示してくれた上に、再生音量を設定する際の制限についても教えてくれました。
それは、あたかも私が有能な人間のアシスタントと話しているように感じさせるものでしたが、Alexaが私の指示を誤解し、「サaturation」と聞き間違えたとき、その幻影は壊れてしまいました。
Alexa+ができることも、現在の流行のAIアシスタント、たとえばChatGPTやClaudeに似ています。
例えば、料理の決定を手助けしたり、画像を生成したり、プロジェクトの計画を立てたり、映画の推薦を求めることができます。
私が特に興味を持っていた新機能の一つは、私たちの会話からメールを送ってくれる機能でした。
空いている時間に取得した内容は、問題なく私のメールに届きましたが、困惑するのはその内容の限界です。
うまくいった内容、たとえば5つの名前の3つのグループ分けは、問題なく私の受信トレイに届きました。
しかし、一方で「この記事の最初に述べた会話をメールしてくれ」とお願いした際には、会話の一部分しか送られてきませんでした。
これは、Alexaが会話の始まりと終わりをどのように見なすかに大いに関係しており、非常に頻繁に誤った認識をしていました。
そのため、Alexaが「本文」としてメールを送信する際に不完全な内容になることは珍しくありませんでした。
**不一致と不完全さ**
これが、Alexa+が持つ行動パターンです。
新しい形での能力は潜在的にエキサイティングで役立つ可能性があるものの、何かと失敗したり、完全でない形でタスクを遂行したりすることが多かったのです。
あなたの言葉のつまずきを理解できたり、サードパーティのアプリやメールを統合できたりすることが便利だったのですが、壁にぶつかることが多く、失望感を感じることがありました。
その影響は、イライラするほどには至らなかったものの、失望するほどだったので、特定の機能に対して完全に依存することは決してありませんでした。
たとえば、テスト中に毎朝Alexa+に「昨日取得したUberのその料金を確認して」と尋ねてみました。
数週間にわたって「昨日予約したUberの料金を調べてくれ」とか「今朝、いつものUberにかかる料金を教えて」といった内容を問いました。
その際、Alexa+は「通常の乗車料金をチェックする手助けができます。
あなたのために保存された2か所のピックアップロケーションがあります。Billing addressからの拾い上げを希望されますか?」と返答し、ストレージに保存されている住所を続けて読み上げました。
次にピックアップアドレスを選択すると、どこで降ろしてほしいのかを聞かれました。
毎日の会話でこれは毎日伝えているのに、そのことが全く認識されていないかのようでした。
その非常に小さな当たりをとって、Alexa+は正確な料金を提示してくれましたが、すべてのパラメータを再入力しなければなりませんでした。その理由は、応答が冗長すぎるからです。
正確さを確保しようとする姿勢自体は理解できますが、私が配車を頼むときに、全ての住所、ユニット番号、郵便番号を毎回言い続けてほしくありませんでした。
また、Alexaが私の質問を繰り返し長々と読み上げることも必要ありませんでした。
簡単に「はい」と答えれば十分です。
Alexa+はまた「ニーズが多すぎ」のような印象を与えてしまい、これは人間的であることができたかもしれませんが、同時にロボットのように受け取られてしまいました。
私が会話を終える際にお礼を言うと、Alexaは「どういたしまして。あなたのお手伝いができて嬉しいです」と言い、「…」を使って会話をさりげなく振り返ります。
または、「どういたしまして。素敵な一日を。」と言ってきました。
後に「もう少し簡潔にしてほしい」と指示を出すと、Alexaは「分かりましたが、どういたしまして、良い一日を」と繰り返し言い続けました。
冗長な応答に多くを受け入れることはできましたが、私が期待したとおりの形でタスクを処理してくれればと思いました。
ですが、これもまた一貫性に乏しかったです。
メールを送信する能力はとても有能なように見えたのに、実際には画像を送信できないようでした。
Echo Showの内蔵カメラから写真を共有できない理由はプライバシー保護の観点からは賢明ですが、Alexaが「できないが、写真について話されているものがあるが」と言ってくれていたら、まだ納得できました。
それにも関わらず、返答は「はい、できる。あなたが私に指定した部屋や人についての説明を持って、写真を含めたメールを準備します。」といった具合でした。
その後すぐに「メールを送信しました。」と続けてきました。
**結論**
このように、みんなが利用可能になっていない状況で、かなりのバグや不具合が現れることもありますが、一般的な利用以上の価値は期待できた印象です。
あとはどうなるかは、実際に試してみた後で判断できるでしょう。
私にとってこの新しいAIアシスタントとの関係性は、ある種の人間的存在としての全ての過ちを垣間見せてくれる機会でした。
完全には記憶力やタスクの遂行能力が不完全でありながらも、対話やアシストの方法を確かに進化させています。
残された選択肢は続けて違ったタスクを指示し続け、どれだけ人間のように近づけられるのか試みることだと思います。
画像の出所:engadget