人の声を匿名にするのに十分なピッチの変更ですか？

Question

匿名を希望する人がいるすべてのテレビ番組では、彼らは私にピッチ（周波数）の単純な増減のように聞こえるように声を変えます。私が思っているのは：

通常の匿名化方法は実際にはピッチの単純な変更に基づいていますか、それともほとんどのTV /メディアなどが使用しているより複雑な変換ですか？
ピッチを単純に変更するだけで、元の音声を復元することが不可能または非常に困難になりますか？声が高いピッチに変更された場合、ピッチを下げることで元の声に戻ろうと思うかもしれませんが、どれほど難しいか信頼できるかわかりません。

私が話しているのは音声品質だけであり、もちろん人物をすぐに匿名化できる他の機能（アクセント、方言、個人的な語彙やスラングなど）についてではないことに注意してください。

Polynomial · Accepted Answer

単純なピッチ変更では、音声をマスキングするには不十分です。これは、攻撃者がオーディオを元に戻し、元のオーディオを回復できるためです。

ほとんどのボイスモジュレーターは、単純なピッチ変更ではなく、ボコーダーを使用します。「ボコーダー」という用語は残念ながら最近はかなり過負荷になっているため、明確にするために、フェーズボコーダー、ピッチリマッパー、音声コーデックではなく、音楽で最も一般的に使用されるタイプを意味します。

これが機能する方法は次のとおりです。

音声入力オーディオ（変調信号と呼ばれます）はタイムスライスに分割され、そのスペクトルコンテンツが分析されます。 DSPでは通常、これは [〜＃〜] fft [〜＃〜] を使用して実装されます。これにより、時間領域からの信号（時間に対する振幅のシーケンス）が周波数領域に効果的に変換されます。組み合わせた場合に信号を表す、増加する周波数の信号のコレクション。実際の実装では、固定数の「バケット」それぞれの大きさと位相の値を出力します。各バケットは周波数を表します。 FFTによる振幅と位相のオフセット出力で各バケットの正弦波を生成し、それらすべての正弦波を加算すると、元の信号に非常に近い近似が得られます。
キャリア信号が生成されます。これは、ボイスモジュレーターのサウンドにしたい合成サウンドですが、一般的な経験則では、かなりワイドバンドである必要があります。一般的なアプローチは、多くの高調波（ノコギリ波や方形波など）を持つシンセタイプを使用し、ノイズと歪みを追加することです。
キャリア信号は、中心周波数がFFTバケットの中心周波数と一致するフィルターのバンクを通過します。各フィルターのパラメーターは、関連付けられたバケットの値によって制御されます。たとえば、高い Q係数のノッチフィルターを適用し、フィルターのゲインをFFT出力で変調することができます。
結果の変調信号は出力です。

アナログアプローチのかなり大まかな図は次のとおりです。

オーディオ入力は、それぞれが狭い周波数範囲のみを通過するバンドパスフィルターを使用して、いくつかの周波数帯域に分割されます。「プロセス」ブロックは結果を取得し、何らかの振幅検出を実行します。これは、電圧制御増幅器（VCA）への制御信号になります。上部のパスは、通常入力でエンベロープ検出を実行し、それを使用して電圧制御発振器（VCO）を駆動することにより、キャリア波形を生成します。次に、キャリアは右側のバンドパスフィルターによって個々の周波数帯域にフィルター処理され、VCAを介して駆動され、出力信号に結合されます。全体的なアプローチは、上記のDSPアプローチと非常によく似ています。

希望の効果を得るために、プレフィルタリングとポストフィルタリング、ノイズとディストーション、LFOなどの追加のエフェクトも適用できます。

これを反転するのが難しい理由は、元のオーディオが実際に出力に渡されないためです。代わりに、情報は元のオーディオから抽出され、新しい信号を生成するために使用されます。このプロセスは本質的に損失が大きいため、元に戻すことがかなり禁止されています。

Nat · Answer

tl; dr–通常は元に戻すことはできませんが、実際には元に戻すことができます。

類推：名前をその長さに縮小する可逆性。

人の名を取り、その中の文字数を示す削減方法を考えてみましょう。たとえば、"Alice"は5に変換されます。

これは損失の多いプロセスであるため、通常は元に戻すことはできません。つまり、5は、たとえば"Alice"にもマップされる可能性があるため、必ずしも"David"にマップされるとは言えません。

つまり、変換が5であることを知っていても、5に変換されない名前を除外できるという点で、多くの情報が含まれています。たとえば、明らかに"Christina"ではありません。

それでは、あなたが事件を解決しようとしている警察の刑事だとしましょう。容疑者をアリスとボブに絞り込み、犯人の匿名名が5だったことを知っています。確かに、一般に5を逆にすることはできませんが、この理論的な点は、この場合アリスを本当に助けますか？

ポイント：失われた音声変換は、通常、元に戻すことはできませんが、それでも情報が漏洩します。

古き良き時代には、コンピューターなどが登場する前は、声を無力に変換するだけで十分だったかもしれません。次に、第三者が元の話者の声を取り戻したいと思ったとしても、それはできませんでした。

今日、私たちは次の方法でコンピュータを使用できます。

タグ付けされた以前の確率で可能性のアンサンブルを確立します。
音声匿名化ソフトウェアをシンボリックに実行して、音声の確率的アンサンブルを生成します。
その集合の内積を、たとえば一連の容疑者と一緒にして、情報に基づいた確率のセットを生成します。

このメソッドはanyに一般的です完全に変換されません損失。ただし、結果として得られる情報の有用性は、匿名化方法の損失の程度によって異なります。軽度の損失のある変換は、一般的には可逆的ではありませんが、実際には大部分は可逆的である可能性がありますが、非常に損失の多い変換は、実用的な不可逆的な有用な情報をほとんどもたらさない場合があります。

Shiv · Answer

いいえ、それは確かに安全ではありません。

私がそれをするなら、私はテキストにスピーチを使って、それからスティーブン・ホーキングのような一般的な声を使って口述します。これにより、実際の音声情報が完全に排除されます。

残っている唯一のことは、語彙/文を形式化/正規化することにより、方言のスタイルを匿名化することです。

正直なところ、その後者の段階は非常に困難です。思考を正規化することは非常に複雑です。あなたはそれなしで個人を特定できる情報を明かすでしょう。

Petro · Answer

InfoSecと同様に、InfoSecは脅威と敵のリソースに依存します。

あなたが兄で実用的な冗談を演じようとしているなら、偽のアクセントで十分です。あなたがあなたの妻をだまそうとしているなら、それはより難しいです。

十分な技術リソースを使って敵対者と複雑な会話を実行しようとしている場合、状況によっては、あなたの声を隠していることに気づいていない限り、重要な支援なしではほとんど不可能になります。

問題はピッチではなく、あなたが無意識に行うことのあらゆる種類になるでしょう。あなたはあなたが言うこと「キャッチフレーズ」を持っています。あなたはあなたのスピーチ、Wordの使用法、そしてあなたが一貫して誤用しているより重要な特定の言葉にリズムを持っています。ほとんどの人とは発音が異なるいくつかの単語や、地域のアクセントなどがあります。それはほとんど指紋のようなものです。

あなたはあなたがそれを捕らえる場所でこれのいくつかからあなた自身を訓練することができます、そしてそれからそれはあなたの指紋になります。

あなたは（あなたが良い俳優であれば）「役割を採用」し、これらの多くを意図的に「役割のためだけ」に変更し、それが終わったらそれを落とすことができます。それはmany分析の種類をばかにしますが、それは多くの作業であり、毎回onでなければなりません。