web-dev-qa-db-ja.com

リスニング目的で22.05kHzの音声オーディオ素材を44.1kHzに拡張するにはどうすればよいですか?

ウェブ上で本当に面白いラジオ小説を見つけたので、知人の一人に注目してもらいたいと思います。残念ながら、オーディオ素材の品質は低く、22.05 kHzと1チャンネル、モノラルしかありません。ただし、音楽は含まれず、音声のみが含まれます。一般的に言って、それは古いラジオ、または古い電話のように聞こえます。友達に送る前に、できれば少し強化したいと思います。オーディオファイルのサウンドを少し良くするために、どのソフトウェアを使用し、どのような操作を実行する必要がありますか?

1
Konstantin

音声を録音するためのサンプルレートが22kHzの場合、44kHzに設定して拡張することはできません。それをビットマップ画像と比較することができます。「ピクセルを大きくする」ことによって詳細を取得することはできません。モノラル/ステレオと同じです。モノラル録音の場合、ステレオ録音にすることはできません。それは逆の方法でのみ機能します。ステレオをモノラルにする。

ただし、他の「問題」がある場合、たとえば録音の特定の部分に十分な音量がない場合、これを修正したり、急激な変化を滑らかにしたりできる場合があります。ただし、これは問題の種類によって異なり、一般的な解決策はありません。 「技術的な問題」が何であるかを理解するためにトピックに精通し、次に解決策を見つけようとする必要があります。この解決策の適用に問題がある場合(非常に特定の音響問題の解決策を見つけること)、その特定のトピックについてもう一度質問することをお勧めします。

3
Albin

22.05 kHzは、話し言葉の限りでは「低品質」ではありません...ほとんどのAudibleライブラリのサンプルレートは22.05kHzです。 「高品質」ファイルの場合。

音が悪い」という録音の場合は、おそらく他の原因によるものです。

  • ビット深度(8ビットと16ビット)
  • 圧縮(低ビットレートMP3対AACまたはOGG)
  • マイク(安いvsそれほど安くはない)
  • マイクとリーダーの配置
  • オリジナルメディア(アナログvsデジタル/カセットテープvsミニディスクまたはPC)
  • はるかに低いサンプルレートからの以前のアップサンプル(これはあなたが今やろうとしていることです)。

いずれにせよ、情報は失われ、元に戻すのは困難になります。それに多くの時間を費やすことなくおそらくできる最善のことは、EQを微調整してより受け入れやすいサウンドにすることです。


あなたが提供したサンプルは私にはまったく悪く聞こえません(私は言語を話さないので、いくつかのニュアンスが欠けているかもしれません...)。

EQを少し微調整して "normalize" オーディオをレベルアップするようにします-あなたはそれを見つけるかもしれません録音が不十分だと思うのは、実際には、音量を上げるとシステムのノイズが明らかになることです。

波形は以下のように変化します(Audacityを使用)、前(上)と後(下):

Audacity, before (top) and after (bottom)

録音には少し残響があります(おそらく部屋から来ている可能性があり、マイクから少し離れすぎている可能性があります)。ただし、バックグラウンドノイズは最小限であり(したがって、波形の狭いセクション)、歪みはなく、ファイル全体で1つのポップしかありません(上記には表示されていません)。

3
Attie

すでに述べたように、話し言葉の22.05kHzでの録音は、それ自体が「悪い」わけではありません。しかし、録音には強調すべき情報がないため、実際に「修正」することもできません。あなたはすでにそこにあるものでのみ働くことができます。

いくつかの説明...人間の声は、実際には2〜6kHz付近で最もはっきりしています。ここにすべての子音があり、リスナーが実際に何を言っているかを判断するのに本当に役立ちます。また、指を耳に当てるとわかりにくくなり、主にこれらの高い周波数がブロックされます。
6kHzを超える音声には情報がありますが、それをはるかに超える情報があり、11kHzまでには、有用な情報がほとんど残っていません。

つまり、話し言葉の場合、サンプル周波数として22.05kHzを使用します。
ナイキスト-シャノンサンプリング定理 と呼ばれる非常に複雑なオーディオ分析があります。これは、基本的にナイキスト限界と呼ばれます。
"オーディオファイルに記録できる最高のオーディオ周波数は、サンプリング周波数の半分です。"
これは、22.05kHzの録音で約11kHzに相当します。
それは人間の声には十分です。

また、サンプリング周波数を44.1kHz [CDオーディオ品質]まで変更した場合でも、それ以上の情報は使用できなくなります。

あなたのオーディオブックに。
問題は、私が聞いているように、リーダーがマイクに少し近かったことです。これは、 近接効果 と呼ばれるもののために、より低い周波数を強調します。ここで完全に説明する必要はありませんが、全体的には録音が少し低音になっています。
これもやや圧縮されています。ダイナミックレンジが縮小されているため、静かなビットが大きくなり、大きなビットが静かになります。これは了解度を高めるのに役立つはずですが、それができたほどにはうまくいかず、低音をさらに強調する傾向があります。これを行うために私が考えることができる唯一の理由は、それが読者を「より男らしい、より権威のある」ように聞こえさせるということです。

次に行う必要があるのは、低音を減らし、高音を強調し、重い圧縮の一部を強調しないようにすることです。
これのほとんどcould Audacityで多かれ少なかれ行われていますが、私はCubaseの方が快適なので、そこでお見せしましょう...

ほとんどの人は、最初にファイルを正規化するように指示します。
最初にこれを行わないでください-潜在的なヘッドルームを殺してしまいます。
それを行う必要がある場合は、lastを実行してください。

また、すでに適用されている圧縮を「元に戻す」ことはできません。これは、焼きたてのケーキから卵と小麦粉を取り戻すのと同じです。代わりに、最も影響の大きい領域でのみ軽減を試みることができます。

イコライゼーションだけを使用する必要がある場合は、250Hz未満のレベルを下げて、その下でゆっくりとロールオフしてみてください。次に、おそらく2または3 kHzを超える反対の勾配を追加することにより、子音を取り戻そうとすることができます。

私は3時40分頃に刺激的なクリックまたはリップスマックを見つけました。これを選択してゼロに下げました。デクリッカーですべてを賢くすることができましたが、努力する価値はありませんでした。

このような救助活動に最適な武器はマルチバンドコンプレッサーです。
Audacity用の無料のマルチバンドコンプを見つけましたが、自分で試したことがないので、YMMV -- https://www.gvst.co.uk/gmulti.htm

私はかなり高価なWavesLinMBを使用していますが、一般的な考え方は同じです。これが私がそれを設定する方法です...

enter image description here

画像から、その過度のブームを取り除くために、私がローエンドを非常に強く打っていることがわかります。真ん中はほとんど手つかずのままです。私が出力レベルを上げた高音は、同時にわずかな圧縮を適用したので、重いSなどのいくつかはパンチが強すぎません。また、この時点では全体の音量をまったく上げていません-まだ十分な余裕があります。比較のためにエフェクトを切り替えたときに、音量にだまされていないことが最善です。変化する。

簡単な例-
前...

https://soundcloud.com/graham-lee-15/antal-vegh-orig?in=graham-lee-15/sets/intelligibility-fix

後...

https://soundcloud.com/graham-lee-15/antal-vegh-linmb?in=graham-lee-15/sets/intelligibility-fix

この時点で、音の響きに満足したら、nowを正規化できます。

22.05に直接エクスポートできないという理由だけで、私の例はより高いサンプルレートであることに注意してください。これは、結果に実質的な影響を与えることはありません。

2
Tetsujin