日経サイエンス  2005年8月号

発見するコンピューター 論文の山から宝を探す

G.スティックス(SCIENTIFIC AMERICAN編集部)

 すべての学術論文に目を通すのは,いくら時間があっても不可能だ。未読論文の中に重要な事実が埋もれてはいないだろうか?人間に代わってそれを探り当ててくれる人工知能が登場した。

 

 「ジーンウェイズ」と名付けられたこのシステムを開発したのは,コロンビア大学のルゼツキー(Andrey Rzhetsky)を中心とするグループ。1997年,生命科学分野の論文を自動検索するツールの開発に着手した。すでに自然言語処理に基づいて生物学の文献を検索してデータを抽出するツールがいくつか開発されていたが,主に論文の概要部分を対象とし,論文全体を処理するものではなかった。これに対しルゼツキーは,全文検索はもちろん,遺伝子やタンパク質の間に存在する関係,つまりこれまで見落とされてきたネットワークを“発見”するシステムを目指した。古い情報の山を調べて,新たな知識や仮説を掘り起こそうというのだ。

 

 システムは論文をダウンロードしてプレーンテキストに変換した後に,単語を識別し,科学用語を“理解”する。さらに「GENIES」という構文解析モジュールを使って情報を構造化し,論文の個々の文をコンピューターが“読める”ように翻訳する。その解析結果を「インタラクション・ナレッジ・ベース」というデータベースに蓄積し,検索や分子間関係の発見,新たな分子間相互作用ネットワークの構築に利用する。さまざまな分子経路をグラフィックス表示できる。

 

 ルゼツキーはジーンウェイズの改良を続けており,生物学と化学の全領域をカバーする知識ベースを目指している。こうしたテキストマイニング技術は出版目録の解析にとどまらず,人類の知識全般を統合する可能性を秘めている。

原題名

Molecular Treasure Hunt(SCIENTIFIC AMERICAN May 2005)

サイト内の関連記事を読む

キーワードをGoogleで検索する

サポートベクターマシン隠れマルコフモデルナイーブベイズ分類器決定木アルゴリズムセマンティックツリー