web-dev-qa-db-ja.com

Linux用のまともな音声認識ソフトウェアはありますか?

質問の短いバージョン:Linux上で実行され、まともな精度と使いやすさを備えた音声認識ソフトウェアを探しています。ライセンスと価格は問題ありません。テキストをディクテーションできるようにしたいので、音声コマンドに制限するべきではありません。


詳細:

私は満足のいくように以下を試しました:

上記のすべてのネイティブLinuxソリューションは、精度と使いやすさの両方が低いです(またはフリーテキストの口述を許可せず、音声コマンドのみを許可するソリューションもあります)。精度が低いということは、他のプラットフォーム用に以下で説明する音声認識ソフトウェアの精度よりも大幅に低い精度を意味します。 Wine + Dragon NaturallySpeakingに関しては、私の経験ではそれがクラッシュし続けており、残念ながらそのような問題を抱えているのは私だけではないようです。

Microsoft WindowsではDragon NaturallySpeakingを使用し、Apple Mac OS XIではApple DictationおよびDragonDictateを使用し、AndroidではGoogle音声認識を使用し、iOSでは使用します組み込みApple音声認識。

Baidu Researchがリリースした 昨日Connectionist Temporal Classification を使用した音声認識ライブラリ用の code がTorchに実装されました。 Gigaom のベンチマークは、以下のスクリーンショットに示すように有望ですが、コーディング(および大きなトレーニングデータセット)なしで使用できるようにするための適切なラッパーについては知りません。

enter image description here

非常にアルファ版のオープンソースプロジェクトがいくつかあります。

私はこれも知っています 最新の音声認識に関する最新の結果(参考文献)の追跡を試みます これだけ 既存の音声認識APIのベンチマーク


私は Aenea を認識しています。これにより、あるコンピューターでDragonflyを介して音声認識を行い、別のコンピューターにイベントを送信できるようになりますが、遅延が発生します。

enter image description here

私はまた、音声認識のためのLinuxオプションを探索するこれらの2つの話を知っています。

61

現在、KDEコネクトをGoogle音声認識と組み合わせて、Androidスマートフォンで使用しています。

KDE接続を使用すると、AndroidデバイスをLinuxコンピューターの入力デバイスとして使用できます(他にもいくつかの機能があります)。GooglePlayストアからKDE接続アプリをインストールする必要があります。スマートフォン/タブレットで、Linuxコンピューターにk​​deconnectとindicator-kdeconnectの両方をインストールします。Ubuntuシステムの場合、インストールは次のようになります。

Sudo add-apt-repository ppa:vikoadi/ppa
Sudo apt update
Sudo apt install kdeconnect indicator-kdeconnect

このインストールの欠点は、KDEデスクトップ環境を使用しない場合は不要な多数のKDEパッケージがインストールされることです。

Androidデバイスとコンピューターをペアリングすると(同じネットワーク上にある必要があります)、Androidキーボードを使用してから、 Google音声認識を使用するためのマイク。話していると、Linuxコンピューターでカーソルがアクティブな場所にテキストが表示され始めます。

結果に関しては、私は現在、いくつかの技術的な天体物理学のドキュメントを書いており、Google音声認識は、あなたが通常読んでいない専門用語に苦労しています。また、句読点や適切な大文字の理解を忘れてください。

enter image description here

enter image description here

16
shockburner

現時点では、Linuxでは Voice notebook のみが機能します。

4
Alexei

Linuxerがもう1つ、有用な音声テキスト変換(ディクテーション)プログラムを探すときに、speechpad.pwを調べました。

  • それは私の母国語をよく認識しています
  • 高速で信頼性が高い

欠点:

  • もちろんそれはグーグルからの独占的でクローズドなソフトウェアです
  • googleサービスは、あなたが話すすべての単語を聞いて処理し、おそらく保存します
  • 音声とテキストは処理され、明らかにGoogleによって保存されます
  • speechpad.pwには、月額/四半期/年額のサブスクリプション料金が必要です
  • speechpad.pwはGoogleのアドオンとしてのみ実行されますChrome browser-他のブラウザはありません

したがって、speechpad.pwは非常に独占的であり、クローズドソースでもあり、Googleにバインドされています。Googleはこれを、眠れないメタデータ、個人情報、個人コンテンツコレクターとして知っています。

音声認識自体は非常にうまく機能しますが、これらの不利な点は、私にとっては行き止まりのアプリケーションです。

3
too

KD Connectアプリを使用しています。それはかなり効果的に働いています!机の上の電話で話している間、モニターから目を離せません。唯一の欠点は、これがGoogleキーボードを介して行われることです。これは無料でも、ネイティブでも、オープンソースでもありません。このコメントは、タイプの修正を行わずに投稿されています

2
Josh Levine

Mozilla DeepSpeech をお勧めします。これはオープンソースの音声テキスト変換ツールです。ただし、ツールをトレーニングする必要があります。

事前トレーニング済みのモデルをダウンロードするか、 Mozilla Common Voice DataSets を使用して独自のモデルを作成できます。非常に明瞭な録音の場合、精度率は良好です。私の文字起こしプロジェクトでは、録音にはバックグラウンドノイズが多く含まれており、品質も高くなかったため、まだ十分ではありませんでした。

代わりに Transcribear を使用しました。ブラウザベースの音声テキスト変換ツールです。 Transcribearサーバーに録音をアップロードするには、オンラインに接続する必要があります。

2
John

Chrome App "VoiceNote II"( http://voicenote.in/ )は、私のXubuntu 16.04マシンでうまく機能しています。音声トレーニングは必要ありません。 -upは簡単でした。1回の検索で見つけ、1回クリックしてインストールし、1回クリックしてショートカットを作成し、デスクトップにバインドしました。

2
Indy Tech Fix

携帯電話またはタブレットでドラゴンを使用して、テキストを自分宛にメールで送信することをお勧めします。そのドラッグですが、それは機能し、非常に正確です。 Linuxの使用を主張する場合、2番目のディスプレイを入手すると、コピーと貼り付けがはるかに簡単になります。

私はこれを試していませんが、Python Bluetoothチャットプログラムをドラゴンと一緒にタブレット/電話で使用できる可能性があります。モバイルデバイス用のリモートキーボードアプリもある場合があります。ディクテーション入力をサポートします。

私は実験して、もっと決定的なものであなたに返答するようにしようとします。

0
user273470