News Scan

ツイートでわかる所得区分〜日経サイエンス2016年2月号より

1000万件以上の投稿を解析した結果,ユーザーの社会経済状況が判明

 

セックスと同様,お金はほとんどの人がおおっぴらに論じるのを避ける話題だ。だが,私たちは自分の経済的地位に関する足跡をデジタル世界に残している。ツイッターの140文字という限られた表現のなかにも。

 

5000人以上が投稿した約1080万件のツイートを解析した結果,これらの簡潔なメッセージのなかに,利用者の所得区分を明かすに十分な情報が含まれていることがわかった。ペンシルベニア大学で自然言語処理を研究しているポスドク研究員のプレオティウク=ピエトロ(Daniel Preoţiuc-Pietro)らはこれらのツイートの90%を,投稿者が自ら公開している職業に基づいて,対応する所得区分グループに分類した。その後,機械学習モデル(データから学習し,それに基づく予測を行う)によって,各グループのツイート内容の特徴を特定した。こうして特徴を学んだモデルを用いて残り10%のツイートを解析したところ,それらの投稿者の収入をうまく予測できた。

 

去る秋のPLOS ONE誌に研究チームが報告したように,所得が高い人はビジネスや政治,非営利活動について議論する傾向が強い。低所得者層は美容の秘訣や経験談など,個人的な話題がほとんどだった。「高所得者は情報発信の手段としてツイッターを利用しているのに対し,低所得者は社会的コミュニケーションに使っている」とプレオティウク=ピエトロはいう。このほか,所得の高い人のツイートは恐怖や怒りを表現しがちであることも明らかになった。

 

プレオティウク=ピエトロらは機械学習モデルを利用した以前の研究で,ツイッター利用者の性別や年齢,政治的傾向を予測することに成功していた。さらに,産後抑うつ症や心的外傷後ストレス障害(PTSD)の兆候まで検出できている。同チームはモデル開発を続けているが,プレオティウク=ピエトロは「強力な機械学習モデルもデータにアクセスできなければ無力だ」という。「それと気づかぬまま自分をさらけ出していることがいかに多いか,みんなもっと気をつけるべきだろう」。■

 

ほかにも話題満載! 現在発売中の2016年2月号誌面でどうぞ。

 

 

サイト内の関連記事を読む