Google Speech API

Question

現在、私は自分のプロジェクトで作業しており、デスクトップコンピューター用のSiriのようなアプリケーションを作成しようとしています。 Google Speech APIが音声認識に信頼性があり正確かどうかを考えていますか？音声認識の観点から、どのSpeech APIが最も正確かを教えてください。最も好ましくは無料のAPIです。ありがとうございました。

Kevin Junghans · Answer

Google Speech APIは無料ですが、公式のパブリックAPIではありません。このブログで説明されているのように、一部の人々はそれをリバースエンジニアリングしています。商用製品のAPIに直接アクセスすることを計画している場合は、警告なしに削除または変更して製品を破損する可能性があるため、お勧めしません。これは最近 Google Weather API を使用した開発者に起こりました。一方、 x-webkit-speech を使用してChromeブラウザからアクセスする場合は、Googleでサポートされているため、おそらく安全です。Googleの音声認識はGoogle Voiceや現在廃止されているGoogle 411などの他のプロジェクトで多くの経験を積んでおり、トップスピーチの科学者が働いています。私が考えることができる代替案は Sphinx これはカーネギーメロン大学のオープンソースプロジェクトです。このソリューションを使用した急な学習曲線であり、それをサービスとして設定したい場合は自分で開発する必要があります。 Nuance は、音声認識市場におけるもう1つの大きなプレーヤーであり（Siriが使用するものです）、音声認識をサービスとして提供するソリューションがあります。しかし、それらは高価です。

言語サポートのコメントからの回答の更新

Windows音声認識は、ほとんどの音声認識システムと同様に、他の言語をサポートしています。ただし、使用する言語をシステムに通知する必要があり、問題の言語をサポートする必要があるという点に注意してください。各ベンダーにはサポートする言語のリストがあり、それらは地域に固有です。たとえば、ベンダーはメキシコスペイン語、アメリカスペイン語、スペインスペイン語をサポートできます。これらはすべてわずかに異なる方言を持っています。ただし、音声認識エンジンは、ユーザーごとに1つのタイマーで1つの言語/方言のみをサポートできます。ユーザーは、最初に言語の変更を要求しない限り、音声認識システムに複数の言語を話すことはできません。

2014年3月17日に更新

X-webkit-speech入力フィールドは、他のブラウザーでサポートされていないため非推奨になっています。これは、javascript APIである Web Speech API に置き換えられます。ここでの使用例を見つけることができます。