waveform.jsWeb Audio API を使用して波形データを表示するようなものを見てきましたが、正確な音を分析できる他の多くのツールがありますJavaScriptの音声ファイルのポイント。
もしそうなら、JavaScriptを使用したリアルタイムのリップシンクに使用するために、この分析力を使用することが可能である必要があります。データポイントを読んで、適切な音を見つける方法をいくつか説明します。
したがって、質問は、具体的には次のようになります。
オーディオデータをどのように正確に分析して、特定のタイムスタンプでどのような正確な音が出るかを抽出しますか?
Rhubarb Lip Sync のような最終結果をJavaScriptを除いて、リアルタイムで取得したいと考えています。正確である必要はありませんが、可能な限り近くしてください。
100%正確に音素を検出できるアルゴリズムはありません。
これがリアルタイム用かオフライン用かは言いませんでしたが、使用するアルゴリズムに強く影響します。
メル周波数ケプストラム係数に基づくアルゴリズムでは、約80%の精度が得られると予想されます。これは、ビデオゲームなどには十分な精度です。
畳み込みニューラルネットに基づくディープラーニングシステムは優れた認識を提供しますが、リアルタイムシステムではありません(まだ)。
たとえば、 Meyda から始めて、聞いている信号のオーディオ機能を、各音素のオーディオ機能の人がカタログ化したライブラリと比較することができます。