月別アーカイブ: 8月 2012

第十八回 CerevisiaeのKOコレクションに見られるAneuploidy

守屋です。

大規模解析に関する短い関連話題ですが、エントリーを独立させました。

先日のYeast2012で、「cerevisiaeのKOコレクション(ハプロイド破壊株コレクション?)の多くのものがAneuploidになっている」という発言がちらほら出ていました。はじめAmonの発表で述べられていたらしい事を、大西さんに確認されて、私もぼーっとしていて聞き逃していたようなのですが、金曜日にも同様な話題が出ていましたね(大西さん、聞いてらっしゃいました?)。

その時の質疑では、「KOコレクションのそれぞれの株全部の塩基配列決定を誰かやらないのか?」「私たちやりはじめている。」という流れだったように思います。

これもまた大規模解析の難しさを物語っていますね。

第十七回 エラーの影響を無いように見せる?大規模データの世界。SGAの例。

谷内江@トロントです。

少々過激なタイトルにしてみましたが、前回の守屋さんのエントリーで大規模解析のエラー率の話があがり、AmyさんがSGAが50%程度のエラーを出すと指摘されましたので、50%のエラーが許される世界、50%のエラーがあっても大切な情報を引き出す簡単なデータマイニングについて書いてみたいと思います。

はじめに、2010年にトロントの大規模なSGA解析 [1] によって生産された鮮やかな酵母の遺伝子のネットワークの図はSGA解析から得られた遺伝的ネットワーク (genetic interaction network) そのものではありません。これはそれぞれの遺伝子の遺伝的プロファイル (genetic interaction profile) の相関をネットワークにして可視化したものです。これはどういうことでしょうか?

一般に(酵母や遺伝学の分野を離れて)集団の傾向を解析する統計の分野では母集団が十分にあれば、集団の90%が真実とは無関係にランダムに振る舞おうとも10%が真実を反映して振る舞えば、集団の真の傾向をあぶりだすことができます。大雑把に言えば、大規模データは【少々】の正解が混ざっていれば【大体】の事が言えるということです。

2010年の論文の例で言えば、細胞の遺伝的ネットワークの輪郭については十分な議論ができますし、論文内でもそのような議論が多くなされています。
一方で、当然個別の遺伝子間の作用を上手く反映していることをデモンストレーションする必要がありました。そして(おそらく)遺伝子のネットワークが既存の遺伝子の機能 (GO, Gene Ontology) を上手くクラスタリングできることが直感的な良いデモンストレーションであり課題でした。

Amyさんが挙げられた数字のさらに上をいって、仮にSGAのエラー率が90%だったとします。
エラー率が90%ある遺伝的ネットワークがうまく遺伝子の機能をクラスタリングしているでしょうか?これはしていなそうです。
ではエラー率が90%ある遺伝的ネットワークからうまく遺伝子の機能をクラスタリングしてしまうようなトリックはあるでしょうか?これはありそうです。

2010年の論文の規模は忘れましたが、仮に酵母の6,000個の遺伝子全部について二遺伝子破壊を行ったとしましょう。そして仮に90%がデタラメだったとしましょう。

トロントのチームが使ったトリックはこうです。
任意の二つの遺伝子AとBの関係を考えましょう。データの90%がデタラメですから、SGAによって生産されたA-B間の関係は90%の確率でデタラメです。
ところが、遺伝子Aはその他の5,999個の遺伝子との関係のスコア群(プロファイル)があります。遺伝子Bもその他の5,999個の遺伝子との関係のスコア群(プロファイル)があります。
この遺伝子Aのもつプロファイルと遺伝子Bのもつプロファイルの相関を測ったとき、データはA-B間の真の関係を反映するでしょうか?これについては、大規模データは【少々】の正解が混ざっていれば【大体】の事が言えるという性質がありますからA-B間の機能関係くらいの大雑把な指標は言い当ててしまうのです。

これが(たぶん)「なぜトロントの遺伝子のネットワーク図が遺伝的プロファイルの相関のネットワークなのか」の答えです。

どんなデータマイニングを施してもデータが本来もつ数学的な確度や情報量を変えることはできません。
今回の例は、コミュニティー(レビューア)の大半が納得してしまう「尺度」に対して上手くデータを「変換」させたということになるでしょう。そして敢えて強調しますが、このデータ変換は任意の遺伝子に対して遺伝子の機能程度のことを予測するには大変有用なものでした。

大規模データと大規模データを生産するスクリーニング系は現状ではほとんどの場合個別の現象に焦点を絞ると無用です。
他方、これらはテクニカルなデータ変換によって多様な側面から対象のぼんやりとした像を観察することことを目的にした場合は強力な資源です。この資源の活用は生物学ではこれまでのデータを受けてこれからどんどん発展する分野でしょう。

私は大規模データをデータマイニングする側の立場から、テクノロジーをデザインする立場にスイッチした者として、単純に「こういうスクリーニング系が作れるから作って実行した」ではなく、自分の系から何ができて、どの程度の解像度(確度)が必要で、それが未来に役立つのか、私たちのサイエンスを発展させるか、そしてそれが格好いいテクノロジーかを常に忘れてはいけないと思っています。

私はみなさんに、SGAが50%のエラー率を持っているとしたときに、それを実験系から得られる直接的な理解と照らして即座に無用なものと捉えずに、50%のエラー率という数学的な言葉そのものの通り、理想的な世界でSGAが実現する情報量の50%程度の情報量を持った「変換可能な大きな情報」として捉えていただきたいです。そう捉えたあとに、それがみなさんに有用かどうかという答えは私にはありません。

アマゾンやグーグルはこの手の質のデータから有用なマーケティングを現実世界でどんどん引き出しています。私たちの分野では何か起こるでしょうか?

[1] http://www.ncbi.nlm.nih.gov/pubmed/20093466

話題提供者にAmy Ikuiさんが加わりました

酵母コロキアムの話題提供者にAmy Ikuiさんが加わりました。
Amy IkuiさんはロックフェラーのFred Crossのラボでポスドクをされたあと現在Brooklyn Collegeでラボを主宰されています。
Amyさんどうぞ宜しくお願いします。

第十六回 酵母研究における生化学、それにつづくグローバル解析

(投稿:守屋さん@岡山大)

先日の、コロキアム第一回会合(飲み会?)で話題になったことについて今思うことを書いてみます。会合で吉田さんが主張したのは、「Geneticsは嘘をつかない。白黒ははっきりしている。生化学は一方でグレー。」というものでした。生粋のGenetist吉田さんらしい意見だと思います。このエントリーでは、(現代の)酵母研究者にとっての生化学と関連するグローバル解析について考えてみたいと思います。だらだらとした長文であることをお許しください。

前のエントリーでも書いたかもしれませんが、日本の酵母研究の父の一人である大嶋先生は、「酵母がもつ(他の生物にはない)強みは遺伝学である。」とおっしゃいました。私もこれに反対するつもりは全くありません。Yeast2012に参加していても(この学会がGenetic Society of America主催であることはさておき)、他の生物の追随を許さない強力なGeneticsの力、現在はGenomicsがこれに加わっていますが、を見せつけられます。

強みがあるのだからこれをとにかく使う、というのは当然の戦略です。ただ、私はGeneticsに頼りすぎて、実はそんなに難しくないBiochemistryから酵母研究者が遠ざかりすぎているのではないかという懸念も感じます。私は十数年前に、いまはなき三菱化学生命研でポスドクをやったのですが、その面接でGeneticsの学位論文の仕事を発表したときに、当時の所長だった永井克孝先生に、「Geneticsは点、Biochemistryは(その点をつなぐ線)」だと言われました。

そのせいではないのですが、生命研での仕事は、未知のプロテインキナーゼを、活性をたよりに酵母から精製するというものでした。そのとき当時のボスの酒井明さんが引用されていたのは、2003年になくなられたIra Herskowitz氏が学会で言われた(らしい)「これからは酵母研究者は生化学をしなければならない。」という言葉でした。私は一年かけて酵母の細胞抽出液からカラムクロマトグラフィーをやってキナーゼを同定しました。もちろん、このキナーゼ存在はその前のGeneticsがなければ予想できないものであり、キナーゼ活性のアッセイ系もGeneticsから得られた情報から構築されたものでした。まさにGeneticsで点をうち、Biochemistryで線を繋げたという感じです。

けれど私がやったこのBiochemistryは、ほんとうに酵母の強みをいかせるものだったのか?

その答えが私がキナーゼを精製した一年後に明らかになりました。こないだの会合では「Crappy Collection」といっていましたが、Eric Phizickyのグループが酵母のGenetics(Genomics)とBiochemistryをつなぎました。すべての遺伝子をプラスミドにつなぎ、それぞれに精製用のタグであるGSTをつけたのです[1]。これでGSTで精製したタンパク質の活性を測り、そのタンパク質を発現する遺伝子を持ったプラスミドをたどるだけで遺伝子が同定できます。私はのちに、留学先で同様のMike Snyderのグループが作ったCollection [2]を使って、わずか2回のアッセイで上記のキナーゼともう1つのキナーゼにたどり着いたときには愕然としたものです。

こういう便利なツールができたことは、酵母の強みをさらに高めましたが、ゴリゴリの生化学からは酵母研究者を遠ざけてしまったとおもいます。まあそれはそれでいいのでしょうけど。

一番はじめの話題に戻りますが、酵母の研究者がやる「Biochemistry」は、in vitro酵素活性測定はほとんどやらず、プルダウンなどの相互作用が中心です。これはグレーかもしれません。しかし私は、酵素活性を伴うBiochemistryは、それこそ決定的・とどめとなるデータだと思います。だからもっと活性測定をやりましょうということになるのですが、活性測定ができるタンパク質がターゲットでない場合には難しいですね。

なんだかまとまらないエントリーになっていますが、最後にもう1つだけ。こないだの会合で、Snyder氏の仕事に対して再現性の点で疑問が差し挟まれていました。ただ私の意見としては、GST-fusion collectionにもみられるように、Functional Genomicsの歴史を開いた彼の功績は大きいと思います。彼のグローバル解析に対する評価は、会合でさらに話題になったように、グローバル解析はどれくらい「完全」なのか(例えばノックアウトコレクションには何%間違いがあるのか)ということと関係が深いように思います。これは「ゲノム解析の塩基配列決定のミスがかつてどれくらい許されたのか」、という歴史に近いようにも思います。

今日の谷内江さんのすばらしいトークにもありましたが、CompleteなFunctional Genomicsというのはあり得るでしょうか?今ちょうどトロントのグループのトークでもやっていますが、「そのグローバル解析は、スクリーニングのために行われているのか、完全なランドスケープをみるために行われているのか?」。得られた個別のデータをどこまで信じていいのか。そういうことを評価する軸が必要なのかもしれません。例えば、これまでに既に知られているインタラクションが「得られなかった率」はどれくらいなのか、という評価です。

この評価は、グローバル解析をやる方にとっては恐怖であり、コストも大幅にアップするのでさけたいでしょう。したがって、この評価は、あくまでそのデータやリソースを使う側がそれをどれくらいの信頼度で使うかという「指標」として冷静に用いるべきでしょう。グローバル解析のために作られたデータやリソースは、作った側としてはもうけ度外視で提供しているものです。作った側としては、「Crappy Collection」などとは呼ばれなくないでしょう。最後はNBRP-yeastにgTOWコレクションを提供している立場としての言い訳っぽくなってしまいました。

[1] PMID: 10550052
[2] PMID: 11474067

第十五回 クロマチン代謝のシステマチックスクリーニング

谷内江@トロント大です。

現在守屋さん、吉田さん、大西さんらとYeast Meeting 2012@プリンストンに滞在しています。5泊6日でプリンストン大学に缶詰で濃い日々を過ごしています。

酵母テクノロジー屋の観点から、昨日のFred van Leeuwenさんの発表 [1] が面白いスクリーニングだと思ったので紹介させて下さい。

正確に発表を覚えていない部分があるかもしれませんが、概要はこうです。
彼らはまずヒストンタンパク質をエンコードする遺伝子の上流(もしくは下流)に二種類の免疫沈降タグとloxPサイトと共に以下の具合に入れました。
たぶんこんな感じでした:

[ヒストンH3]-[loxP]-[免疫沈降タグA]-[ターミネーター]-[loxP]-[免疫沈降タグB]

ヒストンH3をエンコードする遺伝子をこのようにしておくと、普段は[免疫沈降タグA]でしかヒストンを落とすことができませんが、Cre-loxP反応後は[免疫沈降タグB]でしか落とせなくなります。

Cre-loxPの誘導がない状態では、細胞内の染色体はすべて[ヒストンH3]-[免疫沈降タグA]で形成されています。
しかし、ある時間に細胞に対してCre-loxPの誘導をかけると染色体のヒストンH3の代謝によって染色体が[ヒストンH3]-[免疫沈降タグB]で形成されはじめます。

したがってCre-loxP反応後ある時間後に[免疫沈降タグA]で落ちてくるヒストンH3の量と[免疫沈降タグB]で落ちてくるヒストンH3の量をみることでクロマチンの代謝具合をモニターすることができるというものです。

これだけでも面白いのですが、彼らはさらにこれをBar-Seq法と組み合わせました:

酵母の一遺伝子破壊株コレクションの株それぞれにバーコーダー法 [2] でDNAバーコードを入れ、このクロマチン代謝トリック株とそれぞれ掛け合わせ、SGA法 [3] でクロマチン代謝トリックを持ちかつ一遺伝子が破壊された株のコレクションを作成しました。

すべての株をプール化して、Cre-loxPを誘導し、ある時間後に[免疫沈降タグA]でのChIP-Seqと[免疫沈降タグB]でのChIP-Seqをやって、[ヒストンH3]-[免疫沈降タグA]と一緒に落ちてきたDNAバーコードの数と[ヒストンH3]-[免疫沈降タグB]と一緒に落ちてきたDNAバーコードの数を比較しました。

要はこれで一遺伝子破壊に対応したクロマチン代謝の速度が一斉に測れるというもくろみで、アイディアはとても賢いのですが、まだまだ壁もあるようでした。

一遺伝子破壊株につきUPTAG-KanMX4-DNTAGという二つのバーコードが入っているのですが、UPTAGの結果とDNTAGの結果は相関しているのかという私の質問には「ない。KanMX4のプロモーター領域(UPTAG周辺)とターミネーター領域(DNTAG)周辺ではヌクレオソームのコンポジションが違う。」というフニャフニャした答えが返ってきました。

昨夜は日本人酵母研究者で集まって酵母の未来を語り合いました。

私は明日の朝にバーコードを使った次世代のインタラクトームスクリーニングについて発表します。

[1] http://www.yeast-meet.org/2012/abstracts/fulltext/f12560021.htm
[2] http://www.nature.com/nmeth/journal/v5/n8/full/nmeth.1231.html
[3] http://www.utoronto.ca/boonelab/sga_technology/index.shtml