web-dev-qa-db-ja.com

データを匿名化するための適切なアプローチは何ですか?

クライアントからデータベースのPHIデータを匿名化するように依頼されましたが、プロセスを単純化しすぎているか、クライアントが過度に偏執的です。多分あなたはどちらが事実であるか私に言うことができます。

このクライアントの匿名化の必要性は2つあります。クライアントを失った場合、分析目的でデータの匿名化されたコピーを保持する権利があります。また、匿名化された形式でデータを開発/テスト環境に移動できる必要もあります。

これは、データベースにあるものの例です。
ファーストネーム
苗字
性別
誕生日
施設
入学日
放電日
入学スコア
退院スコア

このデータは分析に使用され、重要な要素のいくつかは次のとおりです。
性別
入学時の年齢(入学日-生年月日)
滞在期間(退院日-入院日)
改善(退院スコア-入院スコア)

これが私の質問です...

名前をランダム化するだけの場合、これはHIPAA要件を満たすのに十分に匿名化されていませんか?

そうは思いませんでした。施設名もランダム化するとどうなりますか?生年月日、性別、日付、およびスコアの他の情報のみを知っている場合、これは合理的に匿名化されていますか?

では、答えが「いいえ」の場合、ランダムな誕生日を選択し、入院日と退院日を調整して入院時の年齢と滞在期間が同じになるようにしたらどうでしょうか。たとえば、患者が1/1/1930に生まれ、2011年1月1日に入院し、2011年1月10日に退院した場合、誕生日は5/5/1920としてランダムに選択でき、他の日付は5になります。 2001/5/5および2001/5/14。入院時の年齢と滞在期間は同じです。これは合理的に匿名化されますか?

また、もう1つ質問があります。クライアントに生年月日の患者のリストがExcelスプレッドシートにある場合(他の情報はありません)、そのデータはPHIと見なされますか?私のクライアントは「はい」と言っていますが、これらの名前に関連付けられている医療情報がないため、それは意味がありません。

ご協力ありがとうございます。

ダービス

13
Darvis

私は本当にクライアントが何を望んでいるかについて、十分な情報を持っているとは本当に思っていません。問題の一部は、匿名化だけでなく、データの有用性を維持する匿名化です。 2番目の部分は最初の部分と同じようにトリッキーです。

では、答えが「いいえ」の場合、ランダムな誕生日を選択し、入院日と退院日を調整して入院時の年齢と滞在期間が同じになるようにしたらどうでしょうか。たとえば、患者が1/1/1930に生まれ、2011年1月1日に入院し、2011年1月10日に退院した場合、誕生日は5/5/1920としてランダムに選択でき、他の日付は5になります。 2001/5/5および2001/5/14。入院時の年齢と滞在期間は同じです。これは合理的に匿名化されますか?

たとえば、このソリューションでは、技術的にPHIが変更されたために特定の個人に追跡できない可能性がありますが、ruinedがあり、データの違いだけでなく、常に関連する有用性があります入院日と退院日の間。データの分析では、たとえば、入院があった季節(多くの疾患にとって重要)または何年入院があったかについて調整することができませんでした(あらゆる種類のものにとって重要) )。

また、もう1つ質問があります。クライアントに生年月日の患者のリストがExcelスプレッドシートにある場合(他の情報はありません)、そのデータはPHIと見なされますか?私のクライアントは「はい」と言っていますが、これらの名前に関連付けられている医療情報がないため、それは意味がありません。

私たちはあなたのクライアントが誰であるかわかりませんが、あなたがこれを求めているサイトを考えると、答えは絶対にはいです。これらの記録の存在は、特定の医療情報を意味します。被ばくした場合に患者へのリスクが異なる3つの状況を検討してください。

  1. 特許XはクリニックYのリストに含まれています。彼らはそこに行ったに違いない。
  2. 患者XはクリニックYのリストに含まれています。そのクリニックはSTIスクリーニングを行います。彼らが何をしていたのかしら?
  3. 患者XはクリニックYのリストに含まれています。そのクリニックは、地域の高リスクのセックスワーカーの間でのHIV有病率調査の実施を支援しています。面白くないですか...

これらはすべて、名前と生年月日、およびリスト自体の存在で組み立てることができます。 「医療提供者の記録に現れる」は医療情報です。

7
Fomite

現在のHIPAA/HITECHを読む方法では、2つの情報はPHIと見なされ、保護する必要があります。

したがって、はい、fname、lname、およびDoBを含むスプレッドシートは完全にPHIであり、保護する必要があります。請求データがないからといって、それが非PHIデータになるわけではありません。

そうは言っても、SQL2008R2を使用した透過的データ暗号化により、データは「保存時に暗号化」されています。これで、HIPAA/HITECHをカバーすることを決定しました。テスト用にデータをサニタイズしますが、本番環境では使用しません。

4
RateControl

追加の注記として、名前と生年月日をランダムに置き換えた場合、将来的に問題が発生する可能性があります。ランダム化を実行したことを示すためにテーブルに識別子を追加して、適切なデータを破壊したり、古いデータを適切であると見なしたりしないようにすることができます。

3