• ベストアンサー

分散分析の平均値と実際の平均値のズレ

統計初心者です。 現在SPSSを用いてデータの解析を行っており、対応のある3要因分散分析(被験者間要因:1、被験者内要因:2)を反復測定→多重比較(Bonferroni)にて行いました。 その結果、それなりの結果が得られたのですが、気にかかる点があります。 SPSSにて反復測定→多重比較を行った結果として表示された平均値と、実際のデータをエクセル上で平均して得られた平均値とに、微妙に違い(値のズレ)があります。 分散分析を行っている以上、実際の生データの平均値との間にズレが生じてしまうのは当然なのでしょうか?それとも、このズレは解析において何か致命的なミス(データの読み込み失敗、解析方法や条件設定の選択間違い)によって生じてしまった「誤った値」なのでしょうか? また、もし今回分散分析によって得られた平均値が妥当であるならば、論文等にグラフを書く際には、分散分析の結果得られた平均値と生データの平均値のどちらを用いるべきなのでしょうか? 拙い説明で申し訳ありませんが、ご教授頂ければ幸いと存じます。 宜しくお願い申し上げます。

質問者が選んだベストアンサー

  • ベストアンサー
回答No.1

う~~ん、実際、tokeinousagiさんが使用したデータ見てないので何とも言えないですねえ。SPSS自体も使った事が無いので良く分かりませんし。 ただし、可能性としては2つ考えられます。 まずは、分散分析は一種の線形モデルなんで「平均値」とは言っても内部的には回帰係数みたいな感じで算出してて「データを全部足して割ってる」と言う計算を行っていない可能性がある、んです。 その場合は、内部的なアルゴリズムの話になるんで、それがどんなもんなのか推測の域は出ませんけどね。 第2の可能性は単に「エクセルの計算精度は信頼出来ない」と言う事です。単なる表計算ソフトとしてはエクセルのユーザビリティは優秀ですが、数値計算系は正直弱いんですよ。また、「統計解析」はエクセルの仕事じゃありません。 従って、「統計解析専門のソフト」で行った計算結果と「表計算で行った」数値計算結果の精度を比較したら……どっちが信頼性が高い計算結果なのか、自ずから分かると思います。僕ならエクセルの結果を信用しません、ね。 実際、エクセルは細かいバグがたくさんあるんで、まあ、ヴァージョンにも依るんでしょうが、あまり信用し過ぎないに越した事無いですよ。

その他の回答 (1)

  • backs
  • ベストアンサー率50% (410/818)
回答No.2

定義式が異なれば結果も異なるということでしょう。ごく当たり前の問題かもしれませんが、SPSSの平均値を求める関数で定義されている平均値の計算式とExcelで採用されている平均値の計算式が異なれば、当然ながらその結果も異なるでしょう? > 分散分析の結果得られた平均値と生データの平均値のどちらを用いるべきなのでしょうか? SPSSを使える環境にないので追試のしようがありませんが、普通は原データから求めた平均値も分散分析で求められた平均値も一致するはずです(ちなみに、Rのlm()を利用して得られる平均値とExcelのaverage()で得られる平均値は一致します)。 ただし、これは独立3標本の場合。