- ベストアンサー
塩基配列の相同性の計算方法について
こんにちは。 いま、卒業研究でウイルスゲノムの塩基配列の相同性を比較するという作業をしています。 ウイルス20株間すべての相同性を出したいのです。 いまは、Genetyxで一つ一つ計算しているのですが、とても手間がかかります。 一度に、多数の株間の相同性を計算してくれるようなフリーソフトをご存じでしたら教えていただけませんか? よろしくお願いいたします。
- みんなの回答 (2)
- 専門家の回答
質問者が選んだベストアンサー
clustalW (clustalX)などでマルチプルアライメントをとり、出力形式をdistance matrixなどにしておけば一発ですが・・・ いちばん簡単な方法を紹介します。 clustalXを準備してください。(web検索で探し出して、インストールしてください。英語ページですがインストール自体はめちゃくちゃ簡単なはずなので) ウイルスゲノム(全長どのくらい?)を全てFASTAフォーマットでひとつのファイルにまとめてください。 まずはAlignmentをとり、Treesの作成でphylip distance matrixも出力するようチェックを入れておくと、作成されたファイルはタブ区切りの相違性になっているので、相同性%に直すのも楽でしょう。 簡単にウイルスゲノムの比較と行っても、ゲノム全体とゲノム全体を比較すればいいのか、連続的に似ているところをピックアップする必要があるのか、比較した後で特異的な検出用プライマーを作成したいのか・・・など考慮すべき点はいろいろあります。なんだかおもしろそうな研究ですので、計算する過程なども楽しんでください。 いちど指導教員の先生や大学院生に方針を確認した方がよいような気がします。
その他の回答 (1)
- oil-sour
- ベストアンサー率68% (34/50)
#2です。 その方法であれば、列を選択してエクセルの データ>区切り位置で、 「カンマやタブなどの区切り文字によって・・・」をチェック、「次へ」、 区切り文字の「スペース」にチェックを入れ、「次へ」、 そのあと列のデータ形式を選びます。遺伝子名は文字列、数値はG/標準がおすすめです。 これをやった後も、 8列までが1行に収まる(数値8要素の後に改行という仕様?)ようですので、もとの遺伝子数によって表の調整が必要だとおもいます。 。 #この数値は相「違」性になっていますので、1からこれを引いた値が相同性の百分率になります。 #clustalWのTreesのオプションにidentity matrixてのがありますが、小数点までは出ないみたいですね・・・便利ですが。
お礼
教えていただいたようにすると、いい感じにエクセルで作業できました!!! 何から何まで本当にありがとうございました。 卒論がんばりまっす!!
お礼
回答ありがとうございました! 早速clustalXのphylip distance matrixにチェックを入れてNJtreeを書いてみました! ところが、treeはできるのですが、phylip distance matrixというファイルは作成されません。チェックを入れてそのごtreeを書く以外のポイント等ありましたら教えてください。MacOSXだとだめとかありますか?? すみませんが、よろしくお願いします。
補足
早合点ですみません。 phylip distance matrixの作成できました!!! NJbootにしていたので作成されなかったようです。 しかしその後の作業について、どのようにすると一番よいかと考えてしまいました。 わたしは、phylip distance matrixをwordで開き、本文をコピーしてexelに貼り付けました。 そうすると、一つの系統は一つのセルにすべて入ってしまいました。 oil-sourさんはどのようにしてらっしゃるか教えていただけませんか? なんどもお手数かけますが、よろしくお願いします。