• ベストアンサー

調査。各グループの代表の決め方。

宝来聡著「DNA人類進化学」(岩波書店)から引用しています。 下の表は「クラスターの構成と地理的分布」を書き写しています。 各数字は左から、 静岡、沖縄、北海道、韓国、台湾の人数を示しています。 それを元に各クラスターはどの民族に特徴的かを、「特異性」として、 日本人、琉球人、アイヌ、韓国人、中国人の中から決めています。( )内の数字はただの番号です。 「特異性」 アイヌ(1) 1,0,10,1,1 中国人(1) 11,4,1,5,13 琉球人(1) 0,3,0,0,1 中国人(2) 4,1,1,4,15 韓国人(1) 7,4,4,14,2 ―――(1) 5,5,2,3,5 ―――(2) 2,5,3,1,5 日本人(1) 3,2,0,0,1 中国人(3) 1,0,3,4,6 韓国人(2) 5,0,1,7,1 ―――(3) 5,1,4,5,1 ―――(4) 1,2,3,3,1 琉球人(2) 3,5,0,3,3 韓国人(3) 3,0,0,5,4 琉球人(3) 5,12,8,5,0 アイヌ(2) 4,1,7,0,0 琉球人(4) 2,5,4,3,1 中国人(4) 0,0,0,1,6 本文にはこの特異性の決め方は恣意的な面があると言うような断りの一言も書かれています。 特異性とは言うものの代表を決めているだけだと思います。生物学その他の要素がないものとして、単純に数字だけみて、特異性の決め方に妥当性がありますでしょうか。たとえば直感的にアイヌ(1)は許せますが、中国人(1)としたクラスターは納得できません。11人の日本人(静岡)は、中国人の特異性に含まれた事になります。 統計学などで、代表を選ぶような手法がありますか。その手法で判定すると上記の特異性は適切でしょうか。 皆さんが処理しなければならないとしたらどうしますか。 宜しくお願いします。 ちなみに、この数字から日本人は他の民族のいわば混血というような話題に発展しているようです。

質問者が選んだベストアンサー

  • ベストアンサー
  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.1

 「代表を選ぶ」という話ではどうもないようで、むしろ「各クラスタの特徴を離散的に表現する」というような話かと思います。  ご質問の表の第i行第j列をx[i,j]と書く事にします。クラスタi (i=1~18)のタイプjの人の数がx[i,j](j=1~5)ということです。  これだけしかデータがないので、しょうがないから(絶対的な基準ではなく)ここに挙げられている18のクラスタだけを見て、それらの相互比較で「特異性」を言ってみることにします。もちろん、これが適切かどうかは「クラスタ」だの「特異性」だのの意味を正確に知らねば判断できませんが。  さて、jごとに、またiごとにも構成人数が異なるようなので、これを規格化すべきです。   t[j] = Σ{i=1~18}x[i,j]   T = Σ{j=1~5}t[j] として、各jの構成比率   m[j] = t[j]/T を計算します。これが、ここに挙げられているクラスタにおける、平均的な構成比率(クラスタをランダムに構成したときの期待値)である、と考えて良いでしょう。  各クラスタにおける実際の比率y[i,j]は   s[i] = Σ{j=1~5}}x[i,j]   y[i,j] = x[i,j]/s[i] なので、yからmを差し引いた   z[i,j] = y[i,j] - m[j] を作ります。  実際やってみたら、こうなりました: -0.13 -0.17 0.60 -0.14 -0.15 0.11 -0.05 -0.14 -0.07 0.16 -0.21 0.58 -0.17 -0.22 0.02 -0.05 -0.13 -0.13 -0.06 0.37 0.01 -0.04 -0.05 0.23 -0.16 0.04 0.08 -0.07 -0.07 0.02 -0.09 0.14 0.01 -0.16 0.09 0.29 0.16 -0.17 -0.22 -0.06 -0.14 -0.17 0.04 0.07 0.20 0.15 -0.17 -0.10 0.28 -0.15 0.10 -0.11 0.08 0.09 -0.16 -0.11 0.03 0.13 0.08 -0.13 0.00 0.19 -0.17 0.00 -0.01 0.04 -0.17 -0.17 0.20 0.11 -0.04 0.23 0.09 -0.05 -0.23 0.12 -0.09 0.41 -0.22 -0.23 -0.08 0.16 0.09 -0.02 -0.16 -0.21 -0.17 -0.17 -0.08 0.63  z[i,j]は数値が大きいほど、「クラスタiは、デタラメにクラスタを作ったのに比べて、タイプjの人が多目に入っている」ということを意味しています。そこで、各クラスタiについて、z[i,j]が最大になるjをJ[i]としますと、J[i]は、ま、おおざっぱに言えばですが、「クラスタiで特徴的に多いタイプの人」を表しているでしょう。  (もちろんもっと手の込んだ手法はいくらもありますが、そうすると「クラスタnは日本人が多い」のような単純な答にはならず、複雑な(たとえば「韓国人と中国人の人数の差と日本人の人数の1.2倍との和が大きい」みたいな)特徴量が現れてきますから、ご質問の文脈には沿いません。)  で、J[i]をご質問にある表と比べてみると、面白い事に、「---」になっているところ以外は全て、J[i]と「特異性」とが一致しました。  というわけで、いやもちろん、これが適切な「特異性」の計算法だと主張できるほどの根拠はない。けれども、ごく穏当な素朴で統計的にも尤もそうな処理を加えただけであって、特別細工をしたわけでもないのに同じ結果が出てきたんですから、ご質問の表は「断然妥当でない」とまでは言えない、という程度にソコソコマトモだと思われます。

thegenus
質問者

お礼

回答者:stomachmanさん。質問者のレベルに配慮されたご回答ありがとうございます。とても分かりやすかったです。 >『ご質問の表は「断然妥当でない」とまでは言えない、という程度にソコソコマトモだと思われます。』 私としては本件において、最大値のものを、単純に、代表になると決めていいのか?という点が疑問です。やはり統計的にも問題ではありませんかね。 stomachmanさんは、個人的には、このクラスターの代表の決め方を認められますか(笑)? 調査の結果と言っても、もちろんそれはサンプルですので、AになることもあればBになることもありますので、どちらも代表になりえる蓋然性がある場合に、どちらかを代表にして、話を進めるのは、誤謬のある論証になり、棄却されると思うのですが。つまりは、あるサンプルの結果に大小があっても、そのサンプルにおける大小が、”デタラメ”のうちにあるかどうかを統計学的に吟味するものですよね。 中国人(1)のクラスターでは、「日本人」0.11と「中国人」0.16ということから、そのクラスターは、「中国人」であり、「日本人」ではない、としてしまうのはどうなのでしょう。その時点で論理が崩壊していませんでしょうか。 当該の書物はこのクラスター中国人(1)として文章を進めてしまっていますが、(この具体的数値を掲載している点はカナリマトモな筆者なのですが、)この中国人(1)のクラスターが日本人でもあり中国人でもありという判定に変わると、この著作の説得力が大分揺らいでくるような気もしています。 今回、ご面倒な計算をしていただいた上にその具体的数値までご提示くださり、stomachmanさんのご親切さに深く感謝しております。

すると、全ての回答が全文表示されます。

その他の回答 (11)

  • stomachman
  • ベストアンサー率57% (1014/1775)
回答No.2

ANo.1のコメントについてです。  お示しの数値の出自も目的も分からないので、統計的にどうこうしたくても、必要なモデルが未知ですし、モデルを憶測ででも構築するための情報すら未知です。ご質問の文面から、「遺伝学的な意味で『単一民族・日本人』というものが本当にあるのかどうかを論じるためにミトコンドリアのSNPs解析で母系をたどる」みたいな話か?とも思うのですが、しかしそんなデータなら莫大に取られている。仮に、独自のプロトコルでサンプルを選んで調べ直したという話だとしても、特定の少数のSNPsについて調べるだけなら大した設備も費用も要らない。どちらにせよ、表の数値が単なるサンプル数だとすると異様に小さいのがなんだか腑に落ちません。もしかして、何か別のことを表す数値じゃないだろうか、とも考えましたがこれも分からず、いやそもそもグループに分けてある意味ががさっぱり不明。というわけで結局、一体何をどうまとめたらこういう表になるんだか想像し難く、また県名と国名が並んで出て来る奇妙さも説明できず、いやはや、お手上げです。なので、ご質問の表に恣意的な確率モデルを適用するのは不適切だろうと考えました。  ところで、もし、ご質問にある本が強い影響力を持っていて、しかもその本が明らかな統計学的誤りを含んでいる、ということであれば、その本(か、あるいは元になっている原著論文)を検証・批判した論文ぐらいどっかにありそうなものです。

thegenus
質問者

お礼

早速のご回答ありがとうございます。stomachmanさんならば5分で読める本だと思いますので話のネタに一読いかがですか。 非数学領域の吟味を加えて慎重になられることはないと思います。私は一読したですが、数値に関しては、深読みする必要のない、人数そのまんまの数字です。 数学・統計学に処理をする場合、出自がなんであれ、いずれにしても、単なる数字の羅列として扱う訳ですので、数学家的・統計的に、妥当性のある「”代表”選び」になっているかをご検討していただきたいのです。つまりはこのデータが何のデータであってもいいのです。 親切なstomachmanさんのせっかくのご指摘にすぐにお応えできる環境にないので、取り急ぎ、下手な検索をかけてみました。 『ミトコンドリアDNAの可能性と限界・9 クラスター分析を見るときの注意』から抜粋。 >『静岡、沖縄、北海道、韓国、中国からそれぞれ50~66のサンプルを集めて、MtDNAのDループのパターンを調べて、それの近似度を系統図にまとめたところ、18のクラスターに分類できた。各クラスターにおいて何人が一番多いかを調べ、そのクラスターの「特異性」だ、と名づけた。例えばクラスターC2には、静岡人11人、沖縄人4人、アイヌ0、韓国人5人、中国人13人が入っていたので、このクラスターの特異性を「中国人」と名づけた、というものだ。 そういう定義であるから、たまたま、C6の場合だと、日本人5、沖縄人5、アイヌ2、韓国人3、中国人5、が入っているので名づけようがなく特異性の欄には「---」と書いてある。 さて、このクラスター、群、グループの中に属する人たちはどれほど近縁なのだろうか。同じクラスターに属していても、DNAパターンが全く同じ人たちもあれば、トーナメント試合の組み合わせ表のような線を辿ってみると、5乃至6段のレベルを移動しないと、共通の母に行き着かない人もある。もし、この図で、レベルが一段違うことが少なくとも塩基一つの違いと考えれば、それは平均12,000年の経過に相当するというから、5~6段の違いは6~7万年以前まで遡れば共通の母に到達する。そういう人たちの群なのだ。 』(引用終わり) http://www.dai3gen.net/mt09.htm http://www.dai3gen.net/mtdna.png >『 ところで、もし、ご質問にある本が強い影響力を持っていて、しかもその本が明らかな統計学的誤りを含んでいる、ということであれば、その本(か、あるいは元になっている原著論文)を検証・批判した論文ぐらいどっかにありそうなものです。』 個人的意見ですが、その因果関係は日本では成立しないと思います。権威者の稚拙さを指差しする論文言論は日本に存在しないでしょう。 それは研究者の好き好きに任せるという恣意的設定は、その流れに逆らわずに読み進められる部分でしょうが、その設定が非統計的なものであれば、独善の展開です。「これは私が恣意的に設定した」と断りの一文を入れたら、詐欺ではなくなりますので(筆者はそうしているので不義の無い著作なのですが)、設定の吟味を忘れたまま、大きな話題が形成されっぱなしなのだと私は思います。 この話題は、大風呂敷の権威と、早ガッテンのシモジモが生んだ小説に見えます。 ★単なる数値としてご検討いただけるだけで十分ですので宜しくお願いします。最初からそのつもりで数学カテを選びました。 ★たとえば、二者の間に有意差が認められる事と、二者のうち大きい方を代表に選べる事は、別の説明が必要になると思うのですが。 ここも、stomachmanさんのような、質問者の疑問解決に専心する、まっとうな回答者ばかりになれば、質問者も質問サイトも要らぬ苦労をしないでしょう。多くの二心のある回答者の投稿が質問サイトをガサツな落書き場にしむけていると思います。幻滅気味だったサイト参加者として非常に救われました。ありがとうございます。

すると、全ての回答が全文表示されます。

関連するQ&A