第十七回 エラーの影響を無いように見せる?大規模データの世界。SGAの例。
谷内江@トロントです。
少々過激なタイトルにしてみましたが、前回の守屋さんのエントリーで大規模解析のエラー率の話があがり、AmyさんがSGAが50%程度のエラーを出すと指摘されましたので、50%のエラーが許される世界、50%のエラーがあっても大切な情報を引き出す簡単なデータマイニングについて書いてみたいと思います。
はじめに、2010年にトロントの大規模なSGA解析 [1] によって生産された鮮やかな酵母の遺伝子のネットワークの図はSGA解析から得られた遺伝的ネットワーク (genetic interaction network) そのものではありません。これはそれぞれの遺伝子の遺伝的プロファイル (genetic interaction profile) の相関をネットワークにして可視化したものです。これはどういうことでしょうか?
一般に(酵母や遺伝学の分野を離れて)集団の傾向を解析する統計の分野では母集団が十分にあれば、集団の90%が真実とは無関係にランダムに振る舞おうとも10%が真実を反映して振る舞えば、集団の真の傾向をあぶりだすことができます。大雑把に言えば、大規模データは【少々】の正解が混ざっていれば【大体】の事が言えるということです。
2010年の論文の例で言えば、細胞の遺伝的ネットワークの輪郭については十分な議論ができますし、論文内でもそのような議論が多くなされています。
一方で、当然個別の遺伝子間の作用を上手く反映していることをデモンストレーションする必要がありました。そして(おそらく)遺伝子のネットワークが既存の遺伝子の機能 (GO, Gene Ontology) を上手くクラスタリングできることが直感的な良いデモンストレーションであり課題でした。
Amyさんが挙げられた数字のさらに上をいって、仮にSGAのエラー率が90%だったとします。
エラー率が90%ある遺伝的ネットワークがうまく遺伝子の機能をクラスタリングしているでしょうか?これはしていなそうです。
ではエラー率が90%ある遺伝的ネットワークからうまく遺伝子の機能をクラスタリングしてしまうようなトリックはあるでしょうか?これはありそうです。
2010年の論文の規模は忘れましたが、仮に酵母の6,000個の遺伝子全部について二遺伝子破壊を行ったとしましょう。そして仮に90%がデタラメだったとしましょう。
トロントのチームが使ったトリックはこうです。
任意の二つの遺伝子AとBの関係を考えましょう。データの90%がデタラメですから、SGAによって生産されたA-B間の関係は90%の確率でデタラメです。
ところが、遺伝子Aはその他の5,999個の遺伝子との関係のスコア群(プロファイル)があります。遺伝子Bもその他の5,999個の遺伝子との関係のスコア群(プロファイル)があります。
この遺伝子Aのもつプロファイルと遺伝子Bのもつプロファイルの相関を測ったとき、データはA-B間の真の関係を反映するでしょうか?これについては、大規模データは【少々】の正解が混ざっていれば【大体】の事が言えるという性質がありますからA-B間の機能関係くらいの大雑把な指標は言い当ててしまうのです。
これが(たぶん)「なぜトロントの遺伝子のネットワーク図が遺伝的プロファイルの相関のネットワークなのか」の答えです。
どんなデータマイニングを施してもデータが本来もつ数学的な確度や情報量を変えることはできません。
今回の例は、コミュニティー(レビューア)の大半が納得してしまう「尺度」に対して上手くデータを「変換」させたということになるでしょう。そして敢えて強調しますが、このデータ変換は任意の遺伝子に対して遺伝子の機能程度のことを予測するには大変有用なものでした。
大規模データと大規模データを生産するスクリーニング系は現状ではほとんどの場合個別の現象に焦点を絞ると無用です。
他方、これらはテクニカルなデータ変換によって多様な側面から対象のぼんやりとした像を観察することことを目的にした場合は強力な資源です。この資源の活用は生物学ではこれまでのデータを受けてこれからどんどん発展する分野でしょう。
私は大規模データをデータマイニングする側の立場から、テクノロジーをデザインする立場にスイッチした者として、単純に「こういうスクリーニング系が作れるから作って実行した」ではなく、自分の系から何ができて、どの程度の解像度(確度)が必要で、それが未来に役立つのか、私たちのサイエンスを発展させるか、そしてそれが格好いいテクノロジーかを常に忘れてはいけないと思っています。
私はみなさんに、SGAが50%のエラー率を持っているとしたときに、それを実験系から得られる直接的な理解と照らして即座に無用なものと捉えずに、50%のエラー率という数学的な言葉そのものの通り、理想的な世界でSGAが実現する情報量の50%程度の情報量を持った「変換可能な大きな情報」として捉えていただきたいです。そう捉えたあとに、それがみなさんに有用かどうかという答えは私にはありません。
アマゾンやグーグルはこの手の質のデータから有用なマーケティングを現実世界でどんどん引き出しています。私たちの分野では何か起こるでしょうか?
投稿日: 2012年8月7日 | カテゴリー: Uncategorized | パーマリンク 4件のコメント.
大規模解析側からのこういう意見はとても重要だと思います。
このエントリーを読んでいて改めて思ったのは、特に日本の大半の分子生物学者は、大規模解析のパラダイムに思考が追いついていないのではないかという事です。これは私自身も含めての話です。
まだ「以前のパラダイム」にいる人たちの大規模解析に対する期待は、「大規模にやったから分かる生物学」ではなくて「スクリーニングを大規模にやる」であり、従っていろんな新規な遺伝子や相互作用がその解析から「網羅的に」とれてこなければならない。だからこそ精度が重要で、精度にこだわり続けている、とも言えないでしょうか?
一見、「精度を上げること」そのものには何の問題もないように思いますが、それにはコストの大きなトレードオフを伴いますし、その事が大規模解析に手を出しにくくもしています。自分自身がそのツールを使うには良いが、自分では新たなツールを作らないという意味で。また、大規模解析で作られたツールに対する「不当な」期待も生まれてしまう。
先日別の方々とも話していて、そういうシンポジウムをやった方が良いのではないかと言う結論になりました。つまり、この大規模解析の「影(?)」の部分を徹底的に議論するというものです。大規模解析をやっている人間にとっては、自分の首を絞めるようなシンポジウムですが、こういう通常の研究発表は論文には出てこない事をオープンにする事が、逆にこの分野の啓蒙につながると思います。
大西@Stanfordです。
守屋先生のエントリーにコメントするために、考えをまとめようとしていたのですが、さらに議論が進んでいるのでこちらに。
(A) 酵母研究者の多様性
私は、現在酵母を使用している研究者には二つのポピュレーションが混ざっているのではないかと考えています。
(1)精度派:酵母では、一つの現象や分子機構について、他の系よりも高い精度で結果を得ることができる
(2)スケール派:酵母では大量のデータを集め、統計学的に生命をとらえることができる
(1)を分子 and/or 細胞生物学派、(2)をシステムズバイオロジー派と考えても良いかもしれません。もちろん、この二つのグループは相互に排他的なものではありませんし、実際一人の研究者が両方に属している例がほとんどだと思います。
現在は、この二グループから供出されたデータがお互いに混ざり合い、同等の信頼度として解釈されているために、混乱状況が作り出されているのではないでしょうか。
(1)のグループが出した、90%以上の確率で正しい結果と、(2)のグループが出した、10%の確率で正しい結果が混在しているため、(谷内江さんが指摘された通り、ここでは90%が10%より優れているという訳ではありません)
(1)のグループが結果を解釈すると「間違いだらけ」
(2)のグループが解釈すると「生命の全体像を理解するのに役立たない」
というコンフリクトが起こるのかなと想像しています。
また、(1)(2)のグループの差についてですが、おそらく最初に酵母を使って古典的遺伝学を始めた人々は少なからず(2)のメンタリティーを持っていたと思われますので、守屋先生のおっしゃるパラダイムシフトは今回だけではないかもしれないと思っています。今回の学会で私が感じたのは、守屋先生の感想とは逆かもしれませんが、(2)グループの隆盛に伴って(1)の感覚を持った人が減ってきているのかも、ということでした。両グループがお互いに啓蒙し合い、十分なリテラシーを持つようになれば、コンフリクトは解消されそうです。
守屋先生のエントリーにあったcrappy collectionという言い方についてですが、パイオニアに対する敬意を持ちつつ、愛情を込めて茶化したコメントだと理解しています。たとえば、私の研究室にはHartwell由来のオリジナルのcdc株がたくさん冷凍庫に凍っているのですが、高濃度で使われた変異材のためにcdc遺伝子以外の変異が多すぎで、実験に使おうと思えないようなものばかりです。(それでも、一番重要な表現型の相補群だけは間違いないのはさすがです)
谷内江さんのエントリーの話題に戻りますと、一つのデータについてどの程度のウェイトを与えるか、という観点を導入したネットワーク解析を行うと面白いかもしれないと思いました。
(B)False positive vs. false negative
これは完全に技術的な問題ですが、false positiveが出やすい系とfalse negativeが出やすい系を同等に扱うことによる問題は解決できますでしょうか。
酵母を使った大規模解析について、思いつく例をを述べますが、
(1) synthetic lethal/growth defect, phosphopeptide MS analysis, in vitro kinase arrayあたりはfalse positiveが出やすい例、
(2) Y2H, dosage rescue, synthetic rescue, gTOWあたりはfalse negativeが出やすい例かと思います。
ネガティブな結果は(多くの場合)記載されない、データベースに入らない、という我々のサイエンスの流儀からすると、例えばSGDのinteractionsデータに(1)(2)が同じように併記されていると、(1)はノイズを増やすのに貢献してしまいます。SGDではもちろん実験の性質を明示することでリテラシーのある研究者であれば判断がつくようにしていますが、やはり生命ネットワークをビジュアルに理解しようと言う際によけいな手間が増えているように思います。個人的経験としても、各種解析をする際にSGDデータから(1)を除外すると全く違う結果に見えてくることがありました。
この辺、どうにかなりませんでしょうか?
私自身は素人なので、皆さんがどのように思われるか興味があります。
丑丸@静大です。
谷内江さんの意見は非常に刺激的で、大規模解析を行っている人達がこのように考えているという一端が分かって勉強になりました。ただし、こういう考えがスモールスケールバイオロジーをやっている者には届いていないのも事実。学会でシステムバイオロジーのセッションがあっても、発表はその他の研究者に届いていません。
上記のシステムバイオロジーのストラテジーはリーズナブルで、そのようにして研究の萌芽がこれからもどんどん生まれていったらよいな、といつもBioGridを覗いている当方としては思います。
ピンバック: 恵比寿映像祭の「ポピー:アフガン・ヘロインをたどって」 『データを耕す』 | ニュース屋台村