• 締切済み

データ処理について

データ処理で困っています。 ある病気である人と病気でない人の遺伝子発現の数値データを散布図などで比較しようとしています。 病気の人が100人で、病気でない人が200人のデータを得たときに、 N数を、同数にして比べることは、行ってよい処理なのでしょうか? この場合、病気でない人(200人)から、乱数ソフトで100人抽出するとします。

みんなの回答

  • kgu-2
  • ベストアンサー率49% (787/1592)
回答No.2

>N数を、同数にして比べることは、行ってよい処理なのでしょうか? 統計学的に処理すれば、なんら問題ありません。サンプルを抽出する時に、層別化という処理がありますが、それに相当します。 しかし、同数にする必然性、すなわち、同数にしてもなんらメリットはありませんので、ハッキリ言って誰もしません。  散布図では、回帰式を求めることになりますので、データ数が多いほど信頼性が増します。データ数を減らせば、バラつきが少なくなることもありますが、検定では自由度が減るので、有意差が出にくくなります。検定の目的は、有意差を主張することにあるので、データ数を減らして有意差がでにくくなるような処理は、奇特な人以外はいないでしょう。

  • Dr_Hyper
  • ベストアンサー率41% (2484/6033)
回答No.1

グラフの場合は下にN=100または200と記載して%表示で示せば問題ないですよね。normalのNが多いのは当たり前だと思いますしおかしくないと思いますのでNをあわせる必要が内容に思います。 また、散布図の場合も結局のところN数に注目するのではなく、回帰直線が重要となってきますので、もちろんグラフの印象がN数が違いすぎて心象が悪ければ別ですが100と200程度であれば色を変えて同一グラフにプロットしてもそれほどおかしくは無いのではないでしょうか。あなたおっしゃるように無作為に抽出してもいいかもしれませんが、その点をいちいちどのようにやったかを言及するよりは素直にプロットした方が印象もいいような気がします。

risachan20
質問者

お礼

Dr_Hyperさん ありがとうございます。 散布図で両標本を比べた場合、 200人標本数のデータのばらつきが増えるので、病気の人の100人のデータが、統計検定で有意差があっても、病気でない人の100人分差で見た目に差が見えなくなるが気になります。 乱数ソフトで抽出したデータで、標本数をそろえて散布図を作成した場合、ねつ造や改ざんになってしまうのでしょうか?

関連するQ&A