グーグルが脳をヒントに音声認識を向上させた方法とは
http://wired.jp/2013/02/20/android-neural-network/ @wired_jpさんから
siriなども自然言語処理の技術できわめて興味深いサービスを行っているが、もう一つの雄ともいえるGoogleはニューラルネットワークとい うわけだ。
ニューラルネットワークモデルで音声モデルを成長させるのは逆転の発想といえるかもしれない。
どの音声からどの言葉がつながるかを予測することができれば、より自然な流れの認識結果が得られるはずで、これまでも試みとしてはあったのだろうと思う。
音声のデータというのは機械が処理するにはまだまだ負荷のかかるものであり、より精度をあげようとすればするほど処理としては可能でも実用に耐えうるパフォーマンスにはなかなか及ばなかったというのが実状かもしれない。
同じ「おはようございます」でも人によって声質もイントネーションも違うし、同じ人の発話でも街中と家の中では周りの騒音によって認識精度の差が出るものだ。
これをカバーして正しい結果を出すためには認識のためのモデルというものを大量に作り、いわば正解集のようなリファレンスとして使う。
音声のパターンに最も近いものが最適な答えということだ。
例えば、 |私は|日本人です| ということばがあるとする。
このことばの正解に近づくに際し、冒頭の部分は |渡しは|和田氏は|綿しは| ... などまったくの暗中模索の分析をすることになる。
そして次の |日本人です| との文脈との繋がりは人間の会話としては当然の帰結をみせても、機械にはそれが簡単ではない。
なので、まったく文脈に沿わない |に本陣です| といった言葉に行き当たることもあるだろう。
これを大量のモデルの中から引き当てることで精度を上げる方法が昔ながらの認識だっといえる。
人間の会話の内容を認識するのと似た形で次に出てくるであろう言葉を予測することにより、機械ならではのクセのある言葉のマッチング、たとえば |渡しは|に本陣です| などというような結果が導き出されることはなくなるはずだ。
言葉は言葉として捉える そのアナザー・ワンがGoogleのやったことだと私は認識している。
これが遠くない将来に音声認識テクノロジーの大きなブレイクスルーが起こるきっかけとなる可能性は十分にあると思う。
http://wired.jp/2013/02/20/android-neural-network/ @wired_jpさんから
siriなども自然言語処理の技術できわめて興味深いサービスを行っているが、もう一つの雄ともいえるGoogleはニューラルネットワークとい うわけだ。
ニューラルネットワークモデルで音声モデルを成長させるのは逆転の発想といえるかもしれない。
どの音声からどの言葉がつながるかを予測することができれば、より自然な流れの認識結果が得られるはずで、これまでも試みとしてはあったのだろうと思う。
音声のデータというのは機械が処理するにはまだまだ負荷のかかるものであり、より精度をあげようとすればするほど処理としては可能でも実用に耐えうるパフォーマンスにはなかなか及ばなかったというのが実状かもしれない。
同じ「おはようございます」でも人によって声質もイントネーションも違うし、同じ人の発話でも街中と家の中では周りの騒音によって認識精度の差が出るものだ。
これをカバーして正しい結果を出すためには認識のためのモデルというものを大量に作り、いわば正解集のようなリファレンスとして使う。
音声のパターンに最も近いものが最適な答えということだ。
例えば、 |私は|日本人です| ということばがあるとする。
このことばの正解に近づくに際し、冒頭の部分は |渡しは|和田氏は|綿しは| ... などまったくの暗中模索の分析をすることになる。
そして次の |日本人です| との文脈との繋がりは人間の会話としては当然の帰結をみせても、機械にはそれが簡単ではない。
なので、まったく文脈に沿わない |に本陣です| といった言葉に行き当たることもあるだろう。
これを大量のモデルの中から引き当てることで精度を上げる方法が昔ながらの認識だっといえる。
人間の会話の内容を認識するのと似た形で次に出てくるであろう言葉を予測することにより、機械ならではのクセのある言葉のマッチング、たとえば |渡しは|に本陣です| などというような結果が導き出されることはなくなるはずだ。
言葉は言葉として捉える そのアナザー・ワンがGoogleのやったことだと私は認識している。
これが遠くない将来に音声認識テクノロジーの大きなブレイクスルーが起こるきっかけとなる可能性は十分にあると思う。