- ベストアンサー
試験データを統計学で処理したいのですが
私は一種の臨床系の仕事をしているのですが、ある試験の データから「標準偏差」「変動係数」「Zスコア」を算出 することになりました。しかし、それぞれの計算式は知っ ているのですが、それらの意味がまったくわからないため 膨大なデータのどの数値を使って計算を行えばよいのか、 算出された値をどう評価すればいいかがわかりません。 私自身は高卒の、それも数(1)も終了していない学力なので す。どなたか「中学生でもわかる統計学」を私に教授して いただけないでしょうか?
- みんなの回答 (5)
- 専門家の回答
質問者が選んだベストアンサー
統計学の書物を読んでも、専門用語や独特の言い回しが多く、非常に理解しにくいものですよネ。 標準偏差というのは、データのグループ全体でのバラツキを示すものと考えればよいでしょうネ。標準偏差が大きいほど、データのバラツキが大きいということです。標準偏差の3倍を平均値に加えたものと、平均値から引いたものの範囲に通常97%のデータが入ると考えます。これは、実際に得られたデータは、例えば、15,18,20,23,28といった数値であったとき、これは個々の点としての数値ではなく、15~28の範囲に分布している数値グループであると考えるからなのです。血液検査の正常値などはこの数値幅ですネ。 変動係数は標準偏差が平均値の何%を占めるかということで、客観的に標準偏差の大きさを示すものです。動物実験や臨床試験では、標準偏差の値が平均値よりも大きくなり、変動係数が100%を超えることも珍しくありません。とんでもなく大きな数値が出ても、驚かないで、過去の同様のデータを参照されるのがよいでしょうネ。 Zスコアはデータと平均値の差の間に標準偏差値がいくつ入るかというものですネ。標準偏差や変動係数は得られたデータグループ全体の傾向を見るものですが、それに対して、このZスコアは個々のデータがグループ内で、どのような位置付けになるかを知ることができるものです。偏差値や知能指数はこのZスコアの応用ですネ。 ご理解いただけましたでしょうか? 以上kawakawaでした
その他の回答 (4)
- stomachman
- ベストアンサー率57% (1014/1775)
統計処理は手段に過ぎません。何を知りたいのか、何を証明したいのか、その仮説を明確にすることが最も重要です。初めは漠然とした仮説しか出来ませんが、データをいろいろな条件別に分類してヒストグラムでプロットしてみたり、二つのスコア(湿度と収量のような)を散布図にしてみたりして、何か「単なるランダム変動ではない法則性のようなもの」を探す作業が必要です。何らかの目的があってデータを取ったのでしょうから、狙いも必然的に絞られる筈です。こうして、考えを洗練して幾つか明確な仮説を作ります。(「項目Aと項目Bは無関係である」「項目Aと項目Cは比例関係A = a B + b である」というような仮説ですね。) 仮説が出来たら、これを検定する。単なる偶然なのか、本当に関係があるのかを統計的に判定する訳です。なお医療分野ではごく少ないデータから尤もらしいことを述べる必要が生じるので、色々な難しい統計理論を適用することが多いのですが、あんまり感心しません。むしろ比較的簡単な理論をきちんと適用することが重要です。具体的処理方法については、再度質問されたら良いでしょう。 さて、解析の結果を念頭に置いて再びグラフなどを描いてみると、新しい仮説に思い至ったり、場合によってはデータを取る項目やデータの取り方を変更する必要が生じることもあります。例えば、A = a B + b という仮説の係数a,bが分かったとすると、(a B + b - A)をプロットしてみることで、より精密な仮説が出てくるかも知れません。それを検証するには、データをもっと定期的に取らなくちゃ、ということも起こる。 ともかく、まずはデータをExcelか何かできちんと整理し、記録することですね。手入力は間違えやすいので、二人で読み合わせを行います。また一見どうでも良いような付帯データでも、貴重な情報を含む場合があるので、できるだけコード化して入力しておくことがお勧めです。(これはkawakawa教授が既に仰ってますね。)
お礼
再々ありがとうございます。 なるほど、仮説や目的が明確でないと意味がないわけですね(当たり前でしょうが)。 おかげ様で、「標準偏差」等が何を意味するのか、どう利用できるかが漠然とはしていますが、分かったような気がします。目的を正確に把握して統計学を利用できるよう、がんばります。 おかげ様でなんとか報告書が作成できそうです。 本当にありがとうございました。 また、どうにもならない時はよろしくお願いします。
- kawakawa
- ベストアンサー率41% (1452/3497)
再登場です。補足を拝見しました。 Zスコアは正の数であれば、データの方が平均値より上にあるということで、負の数であれば、データは平均値に満たないということですよネ。 ということは、個々のデータが理論値に近い場所でまとまっていることを期待する実験などの場合、絶対値で捉えられるのがよいということになります。ただし、評価自体は正か負かを念頭に考えなければ、そのデータのグループ内での位置付けがわからなくなりますから記録はきちんと残しましょうネ。 補足も拝見しました。 方法としては、製造日毎、或いはロット毎、バッチ毎の生産量をグラフにプロットしていきます。そしてそのグラフには理論収量を中心に標準偏差の3倍幅の上下の幅を持たせた範囲を示します。そして、全データがその範囲内に入っていれば、とりあえず統計的には現在の生産方法で97%の精度を保っていることが確認できます。 また、機械毎、作業員毎、曜日毎、天候毎などの様々なグループ分けをして、それぞれについて同じように処理します。そうすると、条件による変動という重要なデータを得ることができるようになります。本来はここから『検定』を行っていくのですが、まずは、この段階をこなすことでしょうネ。 今はエクセルを使えば、簡単に処理できますので、データ入力と、それに附随する項目の設定に全てがかかっています。 たくさんの生データは本当は宝の山なんですヨ。様々な処理を施して、解析を命じた上司を驚かせてください。 頑張ってくださいネ。 以上kawakawaでした
お礼
再々ありがとうございます。 具体的に説明していただけたおかげでなんとか行動を起こす(計算する)段階まで、たどり着けそうです。 会社である以上、時間に余裕があるわけではないですが、自分なりに精一杯努力して、報告書を提出して、出来れば来年以降の叩き台を作成できればと思います。 また、壁に突き当たった時にはアドバイスいただけると感謝感激!です。 本当に助かりました。ありがとうございました。
kawakawa教授の丁寧な回答がありますので、体験談(??)を少し・・・。 小生も学校卒業してから初めて統計処理を学び、大変苦労しました(笑)??でも、繰り返し実際問題に当たって周囲の先輩に教えを請っていかれることしかないと思います。焦らずに1歩ずつ学ばれる事をお勧めします。 初歩的な統計の本は勉強されている事と思いますが、他の質問でも紹介したのですが、必要であれば補足お願いします。
お礼
ご返答ありがとうございました。 お恥ずかしい話、我が職場でこのようなデータ処理をするのは初めての試みでして、何をするにしても手探りの状態です。 でも、ご指摘のように焦らず学習してひとつひとつこなしていこうと思います。 本については、検索をかけた際に参考にさせて頂きました。また、つまずいた時にはよろしくお願いします。 ありがとうございました。
- stomachman
- ベストアンサー率57% (1014/1775)
> それぞれの計算式は知っているのですが、 > 膨大なデータのどの数値を使って計算を行えばよいのか 「どの数値」というところに引っかかりました。どうやら単にデータが渡されただけ、というのではないご様子ですね。計算式が分かっていながら計算が出来ない理由は、そこにあるのでは? もう少し具体的な状況を補足なさってはいかがでしょうか。
補足
ご返答ありがとうございました。 お言葉に甘えて補足させていただきます。 例え話なのですが、Aの機械に1キロの原料を入れた場合、製造される製品は800グラムであると理論上はわかっているのですが、実際の製造工程において、毎回800グラム製造されるわけではなく、750であったり、830であったり・・・です。このようなデータを何百と渡され、単純な回収率でなく統計として処理する、というのが現在の状況です。 こんなにたくさんの数字に囲まれるのは初めてですよ。 関数電卓さえ持ってない人間なのに(笑)。
補足
ご返答ありがとうございました。 おかげさまで「なんとなく・・・」分かったような気がします。この連休中にちょっと数字と格闘してみることにします。今までは手も足も出なかったものですから。 Zスコアについてなのですが、手元の資料に「2以下であれば合格」という記述があるのですが、これはたとえば 「-3」でも合格なのでしょうか?それとも絶対値で「-2~+2の範囲」を合格とするのでしょうか? すみません、良く分からない質問で。 ご意見を聞かせていただけるとうれしいです。