業界別ソリューション

ライフサイエンスにおけるデータプライバシーの保護:Snowflakeデータクリーンルームの実現方法

ライフサイエンスにおけるデータプライバシーの保護:Snowflakeデータクリーンルームの実現方法

製薬会社は、「使用とアクセス」に関するガードレールを備えた識別可能なデータ(治験データ、患者エンゲージメントデータなど)を大量に生成しています。 プロトコルに記述された意図した使用目的のためにキャプチャされたデータを「一次使用」と呼びます。 しかし、匿名化されたデータは、私たちが集合的に「二次分析」と定義できる範囲で他の推論に使用できます。セカンダリデータとは、データ収集の目的とは異なる目的で使用されたデータを指します。これらのデータセットは、図1に示すように、さまざまなソースから取得できます。 

図 1:二次分析用のデータセット
イメージリファレンス:

製薬会社では、精密医療と患者中心主義への移行に伴い、二次分析の重要性が高まっています。患者が生成した健康データは、製薬会社が病気や治療パターンに関する追加のインサイトを得るための新たな手段を提供します。 

このデータの利用方法はさまざまで、臨床開発を強化するために患者コホートを強化したり、治療効果や関連価値アウトカムを定量化するために集団を特定したりするなど製薬会社は、長期にわたって収集された患者特性に関する豊富なデータセット(臨床試験やオミクス研究など)を保有しており、それを大いに活用することができます。

図2:製薬会社のバリューチェーン
全体での二次分析データの利用

セカンダリデータを大規模に活用するという課題

二次分析用のデータは、内部ソースから取得することも、外部のサードパーティデータアグリゲーターやベンダーから購入することもできます。実際、長期的な患者データを販売するベンダーの数は顕著に増加しています。この変化し続ける状況下で、ライフサイエンス企業の課題は、複雑で分散した膨大なデータソースをシームレスかつ確実に統合することです。 

現在の方法では、厳しいセキュリティ要件と機密性要件を同時に満たす大規模なデータアグリゲーションのための十分なメカニズムが提供されていません。さらに、組織のサイロ、データソースの多様性(遺伝データ、行動データ、臨床データまで多岐にわたり、それぞれに個別の処理方法が必要)、データ統合のための共通識別子の欠如などのさまざまな要因が、この豊富な情報を効果的に管理し活用する難しさをさらに増しています。 

ライフサイエンス企業は、このようなハードルを打ち破るために、セカンダリ分析のために収集するデータにスケーラビリティとセキュリティをもたらす技術的介入を求めています。私たちは、このような介入を「プライバシー保護」テクニックと呼んでいます。プライバシー保護には、プライバシーの数学的保証と行レベルのデータとインサイトのリバースエンジニアリングの防止という2つの基本原則に基づく一連の技術が含まれます。広告技術分野で長い間確立されてきたこの原則は、現在、コラボレーションと高品質のデータへのアクセスがターゲット治療の追求において重要なライフサイエンスとヘルステックのデータプロバイダーエコシステムで勢いを増しています。

これらの手法は、データクリーンルームの使用と連携して頻繁に使用されます。データクリーンルームは、社内外のステークホルダーがコラボレーションを行い、プライバシー保護技術を安全に導入できるよう設計された、信頼性の高い調査スペースです。堅牢なセキュリティ対策の枠組みの中で、多様なデータソースをシームレスにつなぎ合わせ、複数のコラボレーションや分析を行うことのできる、管理された安全な仮想環境として機能します。このような環境は、研究や分析のために機密性の高い患者データを社内外のさまざまなステークホルダーと共有しているライフサイエンス企業にとって特に重要です。

さらに、データクリーンルームでは、差分プライバシートークン化の2つのプライバシー保護戦略を採用できます。どちらも、患者の統計的なつながりに基づいて共通のトークン(または識別子)を提供することで、クエリ結果内の識別可能な要素をプログラムで匿名化し、異なるデータセットをつなぎ合わせることができます。

詳細については、当社のeBook「効果的なデータクリーンルームの構築に向けた3つのステップ」をお読みください。

ライフサイエンス企業は、クリーンルームを活用することで、次のような競争上のメリットを得ることができます。  

  • 匿名化戦略の強化:オンクエリ匿名化の実装(分析クエリ実行時に匿名化を実行すること)により、内部のプライマリデータセットからセカンダリデータセットを作成し、オンデマンドでデータを匿名化します。これを行うには、集約クエリを返すことを許可するか、事前に設定されたルールに従ってデータをダイナミックにマスキングします。データクリーンルーム内で行われるこのプライバシー保護技術は、クエリが識別可能なデータを返さないようにするために役立ちます。また、再識別を防止するため、集約のレベルを制御することもできます。これにより、これまで一般的に行われていたデータの複製や手作業での生物統計学的匿名化が不要になります。
  • 組織規模の分析:安全なデータクリーンルームにより、地域をまたぐチームや外部組織が安全にデータにアクセスし、大規模な分析を実行できます。組織内外の従業員が、データの複製やサニタイズされたサブセットのコピーを行うことなく、地域の垣根を越えてデータにアクセスできるようにすれば、コンプライアンスや地理的制約を緩和することなく、インサイトの生成が促進されます。
  • データの重複購入の排除:データセットを購入する前に重複分析を実行することで、重複データにお金をかけることなく患者サンプルのサイズを拡大します。患者関連のサードパーティデータに対するトークン化戦略により、両方のデータセットに共通する患者を特定し、2つの異なるプロバイダーから重複するデータを購入するリスクを軽減できます。2つのデータセットで重複する患者データが排除されることで、コストの削減だけでなく、固有の患者データのより大きなサンプルが得られ、罹患率や有病率などの観察分析や治療パターンの研究に非常に役立ちます。
  • 患者サンプル数の拡大:トークン化により、ライフサイエンス企業は、実際の患者識別子を持たない多様なデータソース(EHR、請求、死亡率指標、患者報告アウトカムなど)の要素を組み合わせて、エンリッチメントされた患者コホートを作成できます。たとえば、1つのデータセットの死亡率データを、薬の処方や特定の治療法の推奨に関する情報を含む病院の保険金請求と組み合わせることができます。トークンを使用するデータクリーンルームでは、このような接続が可能になると同時に、個々の患者を識別できないようガードレールが設置されます。

ソリューション:SNOWFLAKEデータクリーンルーム

Snowflakeが新たに買収したSamoohaは、完全にSnowflakeのアーキテクチャ上に構築された、ファーストパーティネイティブアプリケーションとしてデータクリーンルームを提供するプラットフォームです。Samoohaは、従来のクリーンルームの役割を果たすだけでなく、ライフサイエンス企業によるプライバシー保護型アナリティクスやAI/MLワークロードの実行を可能にします。 

Samoohaでは、デュアルモードのノーコードウェブアプリケーションとともに、高度なアナリティクスとML/AIのユースケース向けの開発者エディションを提供しています。また、差分プライバシー機能により、ユーザーはデータをクエリ結果に晒すことなく、識別可能な要素で尋問できます。このプラットフォームは、プライバシーが保護されたアナリティクスを実行するだけでなく、開発者エコシステム全体が安全なデータコラボレーションを中心とした独自のアプリケーションを構築できるようにする役割を果たします。 

SamoohaはDatavantとのパートナーシップにより、ライフサイエンス業界に特化したソリューションにもなっています。Datavantはトークン化プロセスを通じてプライバシー保護技術の第1層を提供し、Samoohaはコラボレーション中のデータ漏洩を防止します。プライバシー保護トークン化を使用している場合でも、データクリーンルームの外でこれを行うと、他の患者属性が露出し、患者を特定できるようになるため、これは極めて重要です。 

まとめると、Samoohaのクリーンルームには次のようなメリットがあります。

  • 既存のモデルやAI/MLワークロードをデータクリーンルームにオンボーディングし、簡単にカスタマイズできるデベロッパーエディション
  • Datavantのようなライフサイエンス企業とのパートナーシップを強化するには、オーバーラップを確保するためのネイティブなトークン化が最適かつシームレスである
  • ユーザーフレンドリーなUIにより、技術者ではないユーザーでも簡単に
  • 差分プライバシーおよびその他のニーズ 

Samoohaのデータクリーンルームを利用してデータクエリに対応する方法を、順を追って図3に示します。

図2:Snowflakeのデータクリーンルームの概念図とサンプルデータフロー

1.製薬会社とその協力者がSamoohaのクリーンルームに参加

2.両社は、自社のデータで選択したトークン化プロバイダーを利用し、患者識別子付きのトークンを作成します。その後、これらのトークンは共通トークンキーに変換されます。 

3.製薬会社は、コラボレーション担当者の内部データセットへのアクセスを設定し、どの列にどのようにアクセスできるかを指定します。両社はクリーンルームでトークンを結合し、エンリッチデータセットを作成できます。

4.コラボレーション者はクリーンルーム内でインサイトを実行し、必要なプライバシー義務を負うユースケース固有のしきい値や差分プライバシーなど、適切なプライバシー設定を行います。

データクリーンルームの恩恵を受ける準備はできていますか?

SnowflakeデータクリーンルームとSnowflakeネイティブアプリにより、ライフサイエンス企業は安全かつシームレスにコラボレーションを行い、貴重な健康インサイトと患者アウトカムを改善できます。Snowflakeのお客様は、既存のSnowflakeコンピュートから引き出すだけで、追加コストなしでSamoohaのクリーンルーム環境を活用できます。 
データクリーンルームの実装の詳細については、「効果的なデータクリーンルームの構築に向けた3つのステップ」eBookを参照してください。

記事をシェアする

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

Start your 30-DayFree Trial

Try Snowflake free for 30 days and experience the AI Data Cloud that helps eliminate the complexity, cost and constraints inherent with other solutions.