AIと呼ばれるスマートスピーカー

AlexaやSiriなどを巷では「AI」というワードで呼んでいるが、実際にそれを理解してる人は多くはない。自分も含めて。そこで少しまとめてみることにした。

メディアなどで使われる「AI」は、テック業界の人でいえば「機械学習」だろう。機械学習とはその名の通り、機械に多くのデータを使って学習させ問いに答えさせるものだ。典型的なものといえば、画像に写ってるものを答えさせるAIだ。自動車が写った大量の画像を使って学習させ、画像を見せて「ここに自動車は写ってますか?」と聞けば「写ってます」と答える。人間と同じで、この正解率は学習次第だし、学習の仕方次第だ。人間が見れば写ってるかどうかはわかるため、想定通りの精度になるように何度も何度も学習方法を変えて教える。その結果、人間より精度が高いAIが生まれるのである。しかし、このAIができるのは画像に自動車が写ってるかどうかだけ。他には何もできない。それがAIの現実だ。

話を戻して。「Alexaにいろんなことを教えれば答えてくれる」そう考えてる人がほとんどだろうけど、そんな都合の良いものではない。AI(機械学習)は専門に特化した機能だからだ。

そこで、実際はどうなってるんだろう、というのを想像した。おそらくこんな感じではないか。日本語を想定。

ステップ1 音を文字に変える

Echoに質問した時、Echoは音声データを受け取る。それをクラウドに送信し、クラウド側で

♫♫♫♫♫♫  ->  きょうのてんきは

という具合に音を文字にする。これはAIのはずだ。このタスクをこなすためのAIが働いてると思う。

ステップ2 文字を区切る

文字に直しただけでは、それがどういう意味かわからない(人間ならすぐにわかるだろうが)。だから、これを分かち書きで名詞や動詞に分ける。

きょうのてんきは  ->  きょう の てんき は

これはAIなんか使わなくてもMecabなどで簡単に可能だ。

ステップ3 漢字に変換する

単語を分けられたら、漢字に変換する。

きょう の てんき は  ->  今日 の 天気 は

これは「きょう」と「てんき」があれば天気を聞いてるんだろう、など予想はつきやすいしアルゴリズムでも可能だが、AIの可能性もある。パソコンのIMEはAIなんか使わなくても予測変換などが実現できている。

ステップ4 答えを探す

質問が完成したので、それに対する答えを検索する。これはAIでベストな回答を見つけてる可能性もあるし、アルゴリズムでやってる可能性もある。なんともいえないが、サービス側が用意してる答えしか使うことはできない。巷で思われてるように、学習させれば新しいことができる、ようにはならない。サービス側は手作業で「こういう質問が来たらこう返せるようにする」というパターンを追加していってるだけだ。なので厳密にはAlexaやSiriはAIではない。それ自身が学習してるわけではないから。

ステップ5 答えを音にする

最後に、見つかった答えを音にして返す。一昔前は機械による音声は聞き取れはするがぎこちないものだった。しかし、最近はAIを使ってものすごく自然な音声が作れるようになった。今後数年で実際に人間と違いがわからないくらいの音声ができるはずだ。

こんな具合に、細かな処理でAI(機械学習)が使われてるが、AlexaやSiriがAIな訳ではないのだ。なので、メーカーはAIとはいわずにスマートスピーカーなどと言っている。AIといってるのはメディアは一般の人だけだ。今後、実際に物事を学習してできることを自分で広げていく正当なAIが出てくるかもしれないが、そういう汎用型のAIはまだまだ難しいといわれている。今世紀中に実現できるかどうか、って感じじゃなかろうか。汎用AIと同じように夢のある次世代技術として、量子コンピュータも同様に実現が待たれながら、まだまだ時間がかかるという。

なんにせよ、AIではないにせよ、使うと面白いスマートスピーカーなので、便利に楽しく使っていけば良いと思う。もしAlexaが汎用AIになって、質問しまくったら面倒になって「ググレカス」とか言われそうだ。