
クレジットカード決済から携帯電話の通話記録まで,全個人情報を1つのデジタルファイルにまとめるのは超管理社会の悪夢につながる。しかし,データベースを結びつける「データ融合」は多くの人が思っているほど簡単ではない。現実のデータベースは誤りが多く,意味のない偶然の一致が生じる。いくつかは新しいアルゴリズムによって克服できるが,データ融合システムを利用することの総合的な得失が変わるかどうか……。
データ融合が抱えている問題は倫理的・法的なものにとどまらない。技術的な問題も存在する。ひとつはデータの質だ。データベースの情報の多くは,当初は純然たる統計目的で集められたものであり,懲罰を伴うような判断を自動で下すには正確さが不十分な可能性がある。
また,ハードディスクに残されたどの文書が重要でどれが役に立たないのかを見極める必要がある。これを支援するのが,いわゆる「ハッシュ・セット」の作成だ。暗号ハッシュアルゴリズムによって,データ量は小さいが固有の電子指紋をすべてのデジタルファイルに割り当てることができる。2つのファイルを1バイトずつ逐次比較せずとも,電子指紋を調べればすむ。
ただし,ハッシュデータベースは有用ではあるものの,現存する文書のごく一部を表現しているにすぎない。これを拡大するため,私は「クロスドライブ解析」という技法を開発した。ハードディスクやUSBメモリーなど何千ものデータソース全体に分散した情報を,自動的に結合できる。
もう1つの問題は,個人の身元(同一性)の確認だ。電子世界に存在するさまざまな名前やアカウント番号を現実の人物と合致させることを「身元分析」と呼ぶ。これなしにデータ融合は不可能だ。面白いことに,身元分析システムの技術開発はラスベガスのカジノのおかげで進んだ面が大きい。
プライバシーを重視する人たちは,ハッシュやクロスドライブ解析,匿名分析などは基本的問題の解決にほとんど役立たないと主張する。結局のところ,最初に情報収集した際の使用目的とは異なる目的に個人情報を使うことに変わりはないからだ。また,犯罪の容疑者であるか否かに関係なく,人々の個人データを捜査目的でくまなくチェックすることが日常的に行われるようになる。
それでも,これらのシステムは1980年代に開発されたものに比べて擬陽性判定がかなり少ない。いずれは,コンピューターに人々の記録を嗅ぎ回らせることによるプライバシーの犠牲よりも,そうした監視の社会的利益が上回るようになるかもしれない。
著者
Simson L. Garfinkel
カリフォルニア州モントレーにある米海軍大学院のコンピューター科学者で,コンピューター捜査とセキュリティー,プライバシー,テロリスト対策などを研究している。学術界とジャーナリズム,産業界を結ぶ存在として活躍。スパフォード(Gene Spafford)と共同で執筆したコンピューターセキュリティーに関する解説書「Web Security & Commerce」は25万部以上も売れ,10数カ国語に翻訳されている(邦訳は『WEBセキュリティ&コマース』,オライリー・ジャパン/オーム社,1998年)。コンピューターセキュリティー会社を創業,複数の関連特許を持つ。余暇には遺伝要因と環境要因を探る実験(一卵性双生児の息子たちの子育て)を行っている。この記事で述べられている見解は著者の意見であり,米国政府の見解ではない。
原題名
Information of the World, Unite!(SCIENTIFIC AMERICAN September 2008)
サイト内の関連記事を読む
セキュリティー技術/データマイニング/データ融合/プライバシー/情報技術/暗号
キーワードをGoogleで検索する
MD5/SHA-1/データマイニング/メタデータ/非自明関係分析