データの多様性を実現する5つのステップ：よりスマートなAIを実現する多様なデータ

注：本記事は(2024年2月6日)に公開された(5 Steps to Data Diversity: More Diverse Data Makes for Smarter AI)を機械翻訳により公開したものです。

有名なトップガンシーンで、チャーリーはマーヴェリックに工作は不可能だと言う。マーベリックは「MIGのデータは不正確です」と答える。より最近の続編では、マーベリックは自らの膨大な知識を肌で感じているにもかかわらず、「未来は必ずくる、あなた方はそこにいない」と語っています。現在は飛行機の操縦がより自動化されているかもしれませんが、航空安全のための正確かつ多様なデータの重要性は変わりなく、その重要性はさらに高まっています。最近発生した2件の航空機事故では、ボーイング737 MAXに搭載された自動化システムが不正確なデータに基づいて意思決定を下していました。システムは単一のセンサー入力に依存して重要な飛行制御上の意思決定を行っており、誤ったデータが大惨事を招いていました。データソースが限られていると、リスクが高まります。

私たちの生活の多くが確率モデルに基づく自動化された意思決定に影響を受ける中、データの質と正確性が最も重要になっています。意思決定にはできる限り多くのインプットが必要であり、AIモデルについても同様です。セカンドオピニオンを得ることは、人間にとって一般的な慣習です。自動化についても同じことが言えます。私たちにはデータの多様性が必要です。

セカンドオピニオンを得ることは、人間にとって一般的な慣習です。自動化についても同じことが言えます。私たちにはデータの多様性が必要です。

データの多様性は、AIモデルが内部バイアスを獲得し、「妄想」したり、簡単に言えば間違いを犯したりするリスクを軽減する手段の1つです。業界アナリストは、より完全な状況分析や360度ビューを提供するデータに焦点が移ると予測し、数年前に「ビッグデータ」と区別するために「ワイドデータ」という言葉を生み出しました。「多様なデータ」という言葉の方が分かりやすいと思います。これまでは利用できなかったり利用できなかったりしたソースから、パートナーや顧客、データプロバイダー、あるいは自動化されたデータまで、さまざまなデータが生み出されています。多様なデータが視野を広げ、従来の情報源が永続し得る潜在的な盲点を回避します。

可能な限り多くのデータを使用してAIモデルをトレーニングするために、データの多様性を高めるための5つのベストプラクティスをご紹介します。

1.社内のサイロを解消して多機能ソースにアクセス。従来、データは組織全体に分散したアプリケーションやシステム内で分離されていました。特定の分析目的のために構築されたデータマートは、データの分散性を永続させました。社内のサイロを解消するための最初のステップは、適切なアクセスを合理化し促進する全社的なデータリポジトリとガバナンスポリシーを確立することです。データの使用と再利用をさらに奨励するには、データ製品の考え方、設計と提供を促進するプロセス、構築と展開を行うチームを導入します。エンドユーザー向けデータカタログまたはマーケットプレイスは、発見性とアクセス性を改善できます。

2.非構造化データを変換し、利用可能な内部データを拡大。すべてのデータを利用可能にするには、非構造化データを使用可能な形式に変換するツールを導入する必要があります。ドキュメント、メール、画像、動画、音声記録は、トレーニングに役立つ貴重な情報を提供します。たとえば、小売業者とそのサプライヤーは、製品レビューを分析して顧客のセンチメントを特定し、理想的には因果関係を把握します。誰かが商品を購入したことを知るだけでは十分ではなく、その理由を知りたがります。「Why？」への関心の高まりにより、より多くのデータに対する要求が高まっています。カスタマーサービスとのやり取り（またはコクピットの音声録音）のトランスクリプトは、予測や因果推論のためのより完全なコンテキストの構築に役立ちます。

3.パートナーとコラボレーションし、さまざまなデータソースにアクセス。データコラボレーションにより、組織はビジネスエコシステム全体でデータへのアクセスを拡大できます。消費者の需要の変動とグローバルな供給の課題により、小売業者は需要の予測と在庫の最適化に苦慮しています。完全なコンテキストを得るためには、サプライネットワークのあらゆる側面からリアルタイムのインサイトを収集する必要があります。AldiやInstacartなどの小売業者は、サプライヤーとデータを共有し、需要予測の改善、在庫切れの恐れのあるシナリオの防止、マーケティングの改善に取り組んでいます。Scaniaなどの自動車メーカーは、フリートオペレーターとデータを共有し、メンテナンスと製品設計を改善しています。患者データを共有すれば、診断の迅速化、治療のパーソナライズ、アウトカムの改善を実現できます。データクリーンルームは、プライバシーを保護したデータコラボレーションを促進し、ヘルスケアやライフサイエンスなどの業界のユースケースに対応します。

4.サードパーティの外部データソースの取得とアクセス。住宅、雇用、融資、警備における制度的偏見は、今に始まった話ではなく、今後も表面化するでしょう。AIモデルが過去のバイアスを捉えているという認識が高まっています。データソースの拡大が役立ちます。たとえば、人事部門が組織内の特定のロールのプロファイルを特定したい場合、内部データのみを使用すると、そのロールの過去の従業員の特性を把握できます。人事チームは、採用候補者の全体像を把握するために、既存の潜在的なバイアスを排除するために外部データを取り込みたいと考えています。たとえば、ADP Payroll and Demographic DataやRevelioのWorkforce Data Analyticsは、幅広い表現を可能にする多様なデータの潜在的なソースを提供します。モデルは、これらの外部ソースでトレーニングすることも、検索拡張生成（RAG）で参照として使用することもできます。Snowflakeからの続報にご期待ください。

5.合成データの作成を検討してください。もう1つのアプローチは、表現のバランスをとるために合成データを作成する方法です。バイアスが予測または観察される場合、新しいデータを作成して過小評価されている特性を増やすことができます。たとえば、あるオンラインAI動画編集者は、少数表現を改善するために多様性ファインチューニング（DFT）モデルを開発しました。彼らのモデルは、多様なテキストプロンプトから構築された、知覚される肌の色や性別が異なる合成データに基づいてトレーニングされました。これらのテキストプロンプトは、民族性、ジェンダー、職業、年齢層などの乗算の組み合わせから構築され、多様な合成データとなります。ベースラインと比較して、DFTモデルでは、肌のトーンが暗いと認識される人が多く、女性が多くなっています。ビジネスパーソンのイメージは、たとえばヘッドスカーフを巻いた女性や、肌の色が濃い医者などがリクエストされる可能性が高くなります。

前述のDFTモデリングにSnowflakeは関与していませんでしたが、合成データは、標準仕様に基づくSQLの自動作成によってSnowflakeで大規模に作成できます。また、Snowpark for PythonでFaker（リアルかつ合成的なデータを生成するPythonライブラリ）を実行することで、SQLを使用するだけで、Snowflake内で直接、任意の組み合わせと属性の配布によるトレーニングプロンプトを構築できます。