0704 便利サイト・フリーソフト紹介 ・おすすめソフト紹介     TOPへ戻る
070403 ドラゴンスピーチ(音声認識ソフト)のススメ

音声認識ソフトの誤認識を少なくするためのヒント(実験)

(1)ami voice ES2008 を 使っての実験

mixiのコミュニティの中に「音声入力を始めよう!」というコミュニティがあり、私もそのコミュニティに参加させていただき、音声入力についての情報交換をさせていただいている。その中の話題の中に、ICレコーダーを使っての音声入力を試みている方が、ヘッドセットマイクによる音声入力の方がICレコーダーを使っての音声入力よりも誤認識が少ないような気がするというご発言をなさっていた。その方(吉村さん)のご協力を得て、どのように音声入力ソフトを使うと効率的に音声入力ができるか、このページでは実験をまじえて検証していきたい。

まず、吉村さんから、音声ファイルと、実際の原稿をお送りいただいた。その原稿は、以下のような内容である。

 本発明は、窒化ガリウムの精製方法に関する発明である。本発明は、基板をセットするセット工程と、原材料ガスを噴霧する噴霧工程とを備える。噴霧工程は、基板の面に対し平行な方向に原料ガスを流すとともにそのガスに対して斜めに傾いた方向から同じ原材料ガスを流すことを特徴とする。

本発明は、上述したような特徴を有するので、基板上に効率よく窒化ガリウムの結晶層を積層することができる。

そして、吉村さんの音声入力による、音声原稿は、以下のとおりである。[  ]内に、音声入力によって「、」「。」「全角スペース」「改行」を入れるための音声コマンドを記載しておく。なお、音声原稿を読み上げたときの間(空白の時間)を、( )という記号で挿入しておく。

[ゼンカクスペース] 本発明は[テン]窒化ガリウムの( )精製方法に関する発明である[マル] 本発明は[テン]基板を( )セットするセット工程と[テン]原材料ガスを( )噴霧する( )噴霧工程とを備える[マル] 噴霧工程は[テン]基板の面に対し( )平行な方向に( )原料ガスを流す( )と( )ともに( )そのガスに対して( )斜めに傾いた方向から( )同じ原材料ガスを( )流す( )ことを特徴とする[マル]
[アタラシイダンラク]
本発明は[テン]上述したような( )特徴を有する( )ので[テン]基板上に効率よく( )窒化ガリウムの( )結晶層を( )積層することができる[マル]

[実際の音声]

実際の吉村さんの読み声は、上の[実際の音声]をクリックすると聞こえるので、上の音声原稿と合わせてお聞きいただきたい。

実験その1 吉村さんの音声ファイルを直接 ami voice ES2008 ソフトに流し込んで音声認識をさせる。[実際には、抵抗入りのオーディオコードをヘッドホーン端子とマイク端子とをつないで、ami voice ES2008 に音声認識を試みる]

その結果は、以下のとおりである。[無修正の認識結果です]

全角スペースす3発目は明日、 S 席から龍馬の生成方法に関する初にダンス。っす3発目はセンス基盤を明日セックスするところテストセンス原材料がそうっす宿毛する【テストを備えるっす。その後では、基盤の目に対し遂行な方向にす限度額を探すのもとともに園田に対して斜めに傾いた方向から同じ原材料ダンスを探すことを特徴とする。新しい段落を初値は、上述したよな特徴を優先するので、一番上に効率よく聞かバリウムの決勝総合提供することができる。

上の認識の実際のami voice ES2008の認識画面は以下のとおりである。

かなりの誤認識が見られ、音声認識ソフトを使うのをやめたくなってくるのではないだろうか。

実験その2 ami voice ES2008 にて、私(井上)が、音声入力に適すると考える音声原稿を作成し、実験その1と同じように、音声認識を試みる。

吉村さんの音声原稿をお聞きする中で、私が気がついた点は、かなり細かく吉村さんは区切って原稿を読んでいらっしゃるという点である。区切って読んだほうが、正しく音声認識してくれるように思われるが、基本的に音声認識ソフトは、文脈をとらえた中で変換していくので、できるだけ意味の区切りを大事に音声原稿を作成したほうがよい、というのが、私の音声認識を正確にするために気づいた点である。文単位で、一気に読み上げたほうがよいと、考えている。

そこで、次のように音声原稿を作成して、その音声をami voice ES2008 で、文字化してみた。いきなり「音声原稿を読み上げるよりもよいかもしれないと思いついたので、最初に試運転用の言葉「[これから音声認識実験を行う][カイギョウ]」を挿入してみた。また、「、」を入力するために「テン」と音声コマンドを挿入することによって、音声原稿の読み上げのリズムが乱れるかも知れないと考え、あえて「テン」という音声コマンドは省略した。ただし、「カイギョウ」と「マル」だけは、挿入した音声原稿となっている。

[これから音声認識実験を行う][カイギョウ]
本発明は( ) 窒化ガリウムの精製方法に関する( )発明である[マル] 本発明は( )基板をセットするセット工程と( ) 原材料ガスを噴霧する噴霧工程とを( )備える[マル] 噴霧工程は( ) 基板の面に対し( )平行な方向に原料ガスを流すとともに( )そのガスに対して( )斜めに傾いた方向から( )同じ原材料ガスを流すことを特徴とする[マル][カイギョウ]
本発明は( )上述したような特徴を有するので( ) 基板上に効率よく( )窒化ガリウムの結晶層を積層することができる[マル]

[実際の音声]

ami voice ES2008 の認識結果 (無修正の認識結果です)

これから音声認識実験を行う
今後発明は結果が入部の修正方法に関する発言である。本発言は基盤をセットするセット工程等原材料ガスを踏むする分の工程等備える。分向こうっていわれたごめんに対し平行な方向に燃料がそのだまし取っともその月に対して斜めに傾いた方向から同じ原材料ガスを流す事を特徴とする。
本初値は上述したような特徴を有するので期間上に効率よく引っかかるの検証総合できそうすることができる。

上の認識の実際のami voice ES2008の認識画面は以下のとおりである。

まだまだこれでよいとはいえない音声認識結果である。

実験その3  ami voice ES2008 に専門用語を単語登録しておいてから、音声認識実験を行う。音声データは、実験その1で使用した吉川さんの音声ファイルを利用する。

この文章には、専門用語がかなりでてくるので、それを単語登録しておいてから、音声認識実験を試みた。
登録した単語リストは、以下のとおりである。

窒化ガリウム
基板
セット工程
噴霧工程
結晶層
積層

実験1で使用した吉村さんの音声データを、上の単語登録を終えた段階で、音声認識させた結果は、以下のとおりである。

連絡している小春は、窒化ガリウムの修正方法に関する発言である。本発言は、基板をセットするセット工程と、原材料が総合分もする噴霧工程等を備える。噴霧工程は、基板の名に対し抵抗な方向に限度額を流すともっとともに側に対して斜めに傾いた方向から同じ原材料ダンスを流す事を特徴とするが。新しい旦那くんを初値は、上述したよなあ特徴を優先なので、基板上に効率よく窒化ガリウムの決勝総合積層する事ができる

上の認識の実際のami voice ES2008の認識画面は以下のとおりである。

実験その4  単語登録後に、同じように、井上の音声データを使って、音声認識実験を行った。その認識結果は、以下のとおりである。

これから欧州認識実験を行う
今後辰巳は窒化ガリウムの先生方法に関する初見る。お初には基板をセットするセット工程っと原材料がすごく結ぶする噴霧工程等等。。噴霧工程には基板ごめんに対し有効な方向に善行が0バストとその月に対して斜めに傾いた方向から同じ原材料ガスを流す事を特徴とする。
本初値は上述したような特徴を有するので人の上に効率よく窒化ガリウムの件以上総合積層することができる。

上の認識の実際のami voice ES2008の認識画面は以下のとおりである。

実験3と実験4ともに「窒化ガリウム」「基板」「セット工程」「噴霧工程」「積層」という単語登録した言葉は、正確に音声認識されていることがわかる。
したがって、専門用語の多い文章を音声認識させる場合は、事前に単語登録をしておいてから、音声認識を実行することが有効であることは、わかる。

次に、ドラゴンスピーチとami voice ES2008の音声コマンドは、微妙に異なっているので、それぞれのソフトの指定された音声コマンドを使うことが大事である。
吉川さんは、ドラゴンスピーチを使用しているので、ドラゴンスピーチ用の音声コマンドをお使いになっている。そのドラゴンスピーチ用の音声ファイルを、ami voice ES2008に無理やり実験してみたということなので、そのへんの違いが、認識の結果の違いにあらわれてしまっていることは、お許し願いたい。また、どのように音声原稿を作成するのかというノウハウももう少しみんなで情報交換していくことが大事だと思う。

(記事作成 2009.11.23)


補足  吉川さん自身が、ドラゴンスピーチを使ってICレコーダーに録音した音声原稿を文字化した結果をお送りいただいているので、その結果も参考資料として公開します。

11月16日の認識結果

全角スペースを発言は、窒化ガリウムの精製方法に関する発明である。本発明は、記番号セットするセット公邸等、原材料ガスを噴霧する噴霧公邸等を備える。噴霧皇帝は、基盤の目に対し平行な方向に原料ガスを長洲友とともにその場に対して斜めに食べて方向から同じ原材料ガスを長洲ことを特徴とする。

本発明は、充実したような特徴を有するので、基盤上に効率よく窒化ガリウムの結晶層を積層することができる。

11月21日の認識結果

全角スペース本発明は、窒化ガリウムの精製方法に関する発明である。本発明は、基盤をセットするセット皇帝と、原材料ガスを噴霧する噴霧皇帝とを備える。噴霧皇帝は、基盤の目に対し傾向な方向に原料ガスを長洲友とともにそのバスに対して斜めに傾いた方向から同じ原材料ガスを長洲ことを特徴とする。

本発明は、充実したような特徴を有するので、基盤上に効率よく窒化ガリウムの結晶層を積層することができる。

ドラゴンスピーチでは、使用者の音声については事前に登録しておくという作業が必要であり、使い込んでいくと学習効果が出てきて精度が高まるはずなので、今回の実験のように全く初めての音声認識実験と比較することはあまり意味がないことだと考えていいだろう。しかし、吉川さんの認識結果からみてもドラゴンスピーチでも今回の文章の音声認識は難しかったことがわかる。

吉川さんへのお願い  
ドラゴンスピーチに専門用語を単語登録して、もう一度、同じ音声ファイルで音声認識を試みていただけないでしょうか。そうすれば、単語登録を事前にすることのよさが、もっとわかると思います。その結果を、この場で紹介させていただけると、有益な情報提供になると思います。

(この記事  2009.11.24記)

吉川さんの追加実験のレポート   2009年11月25日 12時46分吉川さんよりメッセージ受信

吉川さんに追加実験をお願いしたところ、早速実験をしていただき、下記のようなレポートをいただきましたので、ご紹介します。やはり、登録した単語の認識率は高くなっています。

ホームページを拝見し、追加実験を行いました。つまり、「窒化ガリウム」・「基板」・「セット工程」・「噴霧工程」・「結晶層」・「積層」を単語登録しておいてから、先般音声認識を行った音声ファイルで音声認識を行いました。

その結果得られた文章は以下の通りです。
−−−−−−−−−−−−−−−
全角スペース本発明は、窒化ガリウムの精製方法に関する発明である。本発明は、基盤をセットするセット工程と、原材料ガスを噴霧する噴霧工程とを 備える。噴霧工程は、基盤の目に対し傾向な方向に原料ガスを長洲友とともにそのバスに対して斜めに傾いた方向から同じ原材料ガスを長洲ことを特徴とする。

本発明は、充実したような特徴を有するので、基盤上に効率よく窒化ガリウムの結晶層を積層することができる。
−−−−−−−−−−−−−−−

(この記事  2009.11.26 記)


(2) ドラゴンスピーチ7.0 プロフェッショナル版 を使っての実験

前節でのami voice ES2008での実験は、特殊な条件の下での実験であった。それは、まったく初めての人の音声データで、どのように音声認識ができるかという実験であったからだ。ただし、私井上自身で読み上げた音声データでの実験も同じ条件の下行ってみたが、その結果は、それほど違いがなかった。とはいえ、単語登録をしてから音声認識をさせてみると、かなりの言葉が正確に認識されたことだけは、確かめることができた。

そこで、普段私が使い慣れたドラゴンスピーチで、同じことを試みた場合、どうなるのか実験を試みた。やってみて、面白い結果となった。

実験その1  単語登録せずに、ICレコーダーの井上の音声を音声認識させたその認識結果は以下のとおり。

これから音声認識実験を行う
本発明は窒化ガリウムの精製方法に関する発明である。本発明は基盤をセットするセット皇帝と原材料ガスを噴霧する分の皇帝と備える。噴霧皇帝は基盤の面に対し平行な方向に勉強ガスを促すとともにそのガスに対して斜めに傾いた方向から同じ原材料ガスを促すことを特徴とする。
本発明は上述したような特徴を有するので基盤上に効率よく窒化ガリウムの経常総合積層することができる。

上の認識結果のドラゴンエディタの画面は、以下のとおり。

吉川さんのドラゴンスピーチでの認識結果(11月16日と11月21日)と比べても、それほど見劣りすることのない認識結果である。私が普段音声認識させている文書とはだいぶ違うが、単語登録なしでここまで認識できれば、まずまずではないかと感じた。

実験その2 単語登録をしてからICレコーダーの井上の音声を音声認識させたその認識結果は以下のとおり。
  (登録した単語リストは、 窒化ガリウム  基板  セット工程  噴霧工程  結晶層  積層  の六つである。)

これから音声認識実験を行う
本発明は窒化ガリウムの精製方法に関する発明である。本発明は基盤をセットするセット工程と原材料ガスを噴霧する噴霧工程と備える。噴霧工程は基盤の面に対し平行な方向に勉強ガスを促すとともにそのガスに対して斜めに傾いた方向から同じ原材料ガスを促すことを特徴とする。
本発明は上述したような特徴を有するので基盤上に効率よく窒化ガリウムの経常総合積層することができる。

上の認識結果のドラゴンエディタの画面は、以下のとおり。

やはり、実験その2のとおり単語登録をしてからのほうが、誤認識は少ない。単語登録をしていない部分での誤認識は、それほど減っていない。例えば、「基盤」「促す」「経常総合積層する」。これらは、ドラゴンエディタ上で修正させることで、学習させていくことで、次回、同じ言葉が出てきたときには、その学習の効果がでてくることになると思われる。

結論からいうと、単語登録をしてから、音声認識をさせるほうが、よい。普段使っている音声認識ソフトの方が、普段読み上げないタイプの文章であっても誤認識は少ないといえるだろう。

(この記事  2009.11.24 記)


人目のご訪問、ありがとうございます。 カウンタ設置 2009.11.23