- ベストアンサー
データの再現性について教えてください。
いまある分野での研究で、データを処理するのに苦労しています... 同じ人に複数回ある事を行ってもらって、ある測定を行って、 例えばその結果が5回で 1234 1322 1411 1295 1388 だったとします。(一例なので数字は適当ですが) そうするとこの数値に関して、 「再現性がある(有意な差がない?ということになると思いますが)かないか」 ことを検定する場合、どのような方法をとればいいのでしょうか? 直属の先生が何も教えてくれない人で、困っています。 どうかよろしくお願いします。 (ちなみに統計ソフトSPSSを使っています。)
- みんなの回答 (7)
- 専門家の回答
質問者が選んだベストアンサー
こんばんは。 回答が進んでいないようですが、統計の話が気になりましたので話に参加してみます。 問題の構造はNo.6さんの文章とそれへの補足を読んでだいたいは理解しました。そこから考えますと、データを取得する場合には「測定を繰り返す際に生じる『ばらつき』」というものが存在するわけですから、まずはデータから、値がとり得る可能性のある分布を推定する必要があると思うのです。 具体的に言いますと、 > ある人に対しとある検査をして、1200なにがしの数値が出ます。 > しかしCという病気をもつ患者さんに同じ検査をすると2000近い値がでるため、 と書いてありますが、「健常者からデータをとると1200あたりだろう」「病気をもつ患者からデータをとると2000ぐらいだろう」というのは、おそらくは、shoesmanasさんが少ないデータ値から勝手に推測しているだけだと考えられます。 ですからまず、健常者で200ぐらいデータを取得してきて(あくまでも説明のための話での数値なので200というのは適当です。どれくらい必要かは、どのようなデータであるかによります)、 900台だったのは200データ中○個 1000台だったのは200データ中○個 1100台だったのは200データ中○個 1200台だったのは200データ中○個 1300台だったのは200データ中○個 1400台だったのは200データ中○個 という感じで、グラフ(ヒストグラム)が書けるはずです。ここから、健常者からデータを取得した場合にそのデータがどれぐらいばらつく可能性があるか、という分布が推定できるはずです。そして、200個のデータから、平均値や最頻値や中央値といったその分布を代表する値、および、分散や標準偏差などその分布の散らばり具合を示す値が算出できるはずです。 きれいにいった場合、たとえば考えられる形としては、代表値を中心(頂点)とした山型の分布表になるかもしれません。 このように、まずはその指標のとり得る分布を推定しないことには、あるデータ値が代表値からちょっと外れていた場合、それが測定誤差の範囲なのかどうなのか判断が難しいと思うのですがねえ…。 同じように、その病気にかかっている患者からのデータを集めて分布を推定してみて、それが健常者のものと思いっきり重なるような分布のグラフになってしまった場合、病気を示す指標としては役に立たなそうだ、ということになるわけです(当然、この判断も勝手な推測で行うのではなく、統計的に検定を行うわけですが)。 もし分布を推定しないまま判断を下すのであれば、データを分析する人間が、その値は誤差として収めるのかそうでないのかという基準を作る必要があるのではないかと。 逆に、その分布や代表値が推定できていれば、新しくデータを取得した場合にそのデータが分布に収まらない統計的に有意な値であるのかを検定する方法はあります(たとえば、病気をもつ患者さん数名のデータが健常者のデータの分布と比べて意味があるほど大きい/小さいのかどうかを、統計的検定の手法を使って示せばよい)。 No.4さんのご回答にあります、 『真の値(あるいは類似の実験結果で得られた他の値)と例に示したような測定値を比較して、両者の「ずれ」が繰り返しに伴う「ばらつき」に比べて意味があるほど大きいかどうか、を比較することになるのではないか』 の内容と同意見になるのかしら? 他の人と議論したりして出した結果がこのような感じなのですが、いかがでしょうか? それとも、もう少し簡単な方法があるのでしょうか? う~ん。
その他の回答 (6)
- hukuponlog
- ベストアンサー率52% (791/1499)
えーと。#5です。補足というか、確認をします。あなたが検定したい実験というのは、例えばこういう事例を考えれば良いですか? ある工場で不良品の発生数を調べる。月曜から金曜まで調査をして 月1234 火1322 水1411 木1295 金1388 という数の不良品が出た。これは、曜日によって有意な差があると言えるだろうか、それともこの不良品の出現数は、曜日による差ではなく単に誤差の範疇として処理しても良いだろうか、という設問。 まぁ、研究ですから詳しく述べるのが差し障りがあるのかもしれませんが、もう少し実験の内容を詳しく教えてもらえれば、適切なアドバイスもできるかもしれません。
補足
このたびはアドバイス、色々とありがとうございます。 hukuponlogさんの言われるような例で違いないと思います。 工場が今回の場合一人の人間となるわけですが... やや具体的にお話しすると、新しい検査法についての模索中なのですが、 ある人に対しとある検査をして、1200なにがしの数値が出ます。 しかしCという病気をもつ患者さんに同じ検査をすると2000近い値がでるため、 この指標をCの診断のために使えるかどうかという研究です。 そのためにまず今は病気のない健常者の数値について調べて、 まずは検査自体に再現性があるかどうかというのを検定しています。 (そもそも毎回ばらつきが多すぎたら検査としての利用価値がなくなってしまいますよね) そのため、上記5つのデータに関して、誤差の範疇におさめてよいものかを調べています。 ほんとうに勉強不足で申し訳ないです...
- hukuponlog
- ベストアンサー率52% (791/1499)
話は簡単です。「対応のあるt検定」をやれば良いのです。SPSSをお持ちでしたらデータを放り込んで終わりです。 質問者さんが聞きたい事というのは、5回の個人内データのばらつきが有意なものか、誤差の範囲として棄却されるものかを検定する方法でしょう? これ、もっとも基本的な統計解析の手法です。SPSSでしたら、有意水準を5%で設定するのか1%で設定するのかを、先生に聞いて、データ放り込めばこの程度のデータなら一瞬の作業です。エクセル使った手仕事だって、たいした作業ではありません。
- indoken
- ベストアンサー率37% (173/457)
ANo2.です。適切な用語が使われているか、会話が成り立つか、ちょっと不安ですが、、、 > 出したいのは、一人の人間での複数回のデータの再現性、 であれば、Excelなどを使って「平均値」と「標準偏差」を出せば良いでしょう。 > 誤差がないかということを知りたい これが 意味不明です。 例のデータを見ると、同じ値になっていないので、何らかの誤差があることは確かです。質問が「誤差がないか」というだけであれば、答えは「ある」です。極言すればそれで終わりです。 一般に誤差の中味には、真の値からの「ずれ」と、同じことを繰り返す際に生じる「ばらつき」 との2つがあります。質問者さんは、まずこのあたりをを整理して解決する課題を立て直す必要があると思います。 多分、真の値(あるいは類似の実験結果で得られた他の値)と例に示したような測定値を比較して、両者の「ずれ」が繰り返しに伴う「ばらつき」に比べて意味があるほど大きいかどうか、を比較することになるのではないかと想像し、「比較する対照」のことを尋ねた次第です。
- FEX2053
- ベストアンサー率37% (7991/21371)
これ、参考になりますかね? http://www.blufi.co.jp/archives/24344389.html いずれにせよ「有意差検定」で検索すると色々ヒットするかと。
お礼
ありがとうございます。自分でもちゃんと勉強が必要ですね...
- indoken
- ベストアンサー率37% (173/457)
有意な差があるかないかを判定したいとのことですが、 質問例では 測定を一組しか示していないように見えます。 差 について話をするには、比較する対照が必要でしょう?
補足
ありがとうございます。 統計のことをなにも知らないのですみません... うまく表現できなくて申し訳ないですが、 出したいのは、一人の人間での複数回のデータの再現性、なんです。 Aさんに協力いただいて、同じ日の同じ時間に同じ機器での測定を5回行って、 誤差がないかということを知りたいのですが、 その場合の比較対照とは何になるのでしょうか... ちなみにデータはAさんだけでなく、数人分ありますが。
- vaio09
- ベストアンサー率37% (756/2018)
正規分布、相関を確認することになります。 SPSSじゃなくてもExcelでもできます。
お礼
ありがとうございます。 ちょっとExcelをいじってみます。
お礼
ありがとうございます。 こんな超初心者のよく分かっていない質問に、 他の方ともディスカッションまでしていただいてお答えありがとうございました。 ヒストグラムの話、とても納得できました。 私が今回扱っている検査は、今まで誰もしていなかったような検査法になるので、 まだまだ研究の域を出るにはほど遠いものです。 でもやはり健常者データの傾向を見るにはかなりの数で検定しないと いけませんよね... あまり時間もなくどこまでできるかわかりませんが、 みなさんのご意見やお教えを参考にさせていただき、 がんばってもう少し勉強しようと思います。 このお礼欄を使わせていただいて、今回ご教示いただいたみなさんへ お礼申し上げたいと思います。 本当にありがとうございました! また質問させていただく際にはよろしくお願いします。