大手テクノロジー企業が、大規模言語モデル(LLM)の学習を目的として、メールやチャットのプロンプト、閲覧履歴などのユーザー生成データを収集している [1, 2]。

この傾向は、人工知能(AI)の急速な発展と個人のデジタルプライバシーとの間で高まる緊張を浮き彫りにしている。企業がAI機能を拡大させるにつれ、個人の通信と企業の学習データの境界線が曖昧になっている。

Google、OpenAI、Anthropic、Perplexityなどの企業は、モデルの性能向上やAI搭載ツールの開発にユーザーとのインタラクションを利用している [3, 4]。この慣行は、GmailやChatGPTを含むさまざまなプラットフォームに及んでいる [1, 2]。

Microsoft傘下のLinkedInは2024年11月3日にポリシーを変更し [5]、プラットフォーム上でユーザーデータをAI学習に収集することを可能にした。同様に、SpaceXのStarlinkサービスも、独自のAIモデル学習のためにユーザーデータの収集を試みている [6]

こうした慣行が透明化されるにつれ、プライバシーへの懸念が広がっている。2025年9月5日のWashington Postのレポートでは、自動学習システムに対してプライバシーを維持しようとするユーザーの継続的な苦闘が詳述された [2]

メールデータの具体的な利用に関しては、相反する情報が存在する。Googleは、GmailのデータをAI学習に使用しているという主張に同意しないとしているが、同社が依然としてそのようなデータを活用している可能性を示唆する報告もある [1]

これらのプロバイダーの多くは、情報の利用を希望しないユーザー向けにオプトアウト(拒否)メカニズムを提供している [1, 4, 5, 6]。しかし、これらの設定はプライバシーメニューの奥深くに配置されていることが多く、ユーザーが個人情報を保護するためには、手動でデータ共有を無効にする必要がある [3, 4]。

大手テクノロジー企業が、大規模言語モデルの学習を目的として、メールやチャットのプロンプト、閲覧履歴などのユーザー生成データを収集している。

AI学習への個人データ利用への移行は、プライバシーモデルが「オプトイン(事前の同意)」から「オプトアウト(事後の拒否)」へと転換したことを意味する。データ収集をデフォルト(標準設定)にすることで、テック企業は膨大な現実世界のデータセットを用いてモデルの洗練を加速させており、結果としてプライバシー管理の負担がエンドユーザーに転嫁されている。