- ベストアンサー
pHの平均値は出せない?統計処理はできない?
ある実験をして(A処理、B処理)pH値データを得ました。それぞれ平均値を出してさらに有意差検定をおこないました。ところが、指導者から対数表現しているpHは単純に算術平均や統計処理をしてはならないと言われました。例えば、A処理:5.5~6.2、B処理:5.3~7.4と表現するのが適当で、統計処理もしない方がいいとのことでした。 では、pHで平均値を得たいときにはどうしたらよいのでしょうか?逆算して計算すべきなのでしょうか。また、本実験の場合、A処理の方が低い(と思われる)データを得たので、「有意に」低いと言いたいのですが、統計処理をするにはどうしたらよいのでしょうか。ご存知の方、お教え下さい。
- みんなの回答 (8)
- 専門家の回答
質問者が選んだベストアンサー
さてpHについてですが、 pH=-log[H+] はご存知ですよね?つまり対数によって定義されているので、平均化は不可能なわけです。 例えばpH4とpH2の水溶液を混ぜた場合、pH3になると思いますか? pH4:4=-log[H+] [H+]=10^-4 pH2:2=-log[H+] [H+]=10^-2 pH4とpH3を等量混ぜると [H+]=5^-5+5^-3 以下計算が面倒で省略 pH3は… pH3:3=-log[H+] [H+]=10^-3 ですよね。つまり平均は無意味ということです。 先生のおっしゃられるように範囲で答えるのが正解です。 pHの場合は、平均値などより、どの程度の範囲をとるかの方が実験的に、はるかに重要な情報です。 つまり統計処理してしまうことは大事な情報を殺してしまうことになるのです。
その他の回答 (7)
6番です。思い出したこと。 平均・標準偏差...は正規分布の時に限って使える統計処理です。 その他に.「かたより」を使う方法があります。あるいは.正規分布に分布が変化するように数値を変換する方法もあります。 ただ.「分布が正規分布だから統計処理が可能」ではないです。過去に話題となったものとしては. 僧侶の寿命。私の調べた範囲ではサンプル数が20くらいしかないので「正規分布である」とはいえないのですが.せいきぷんぷに近い分布です。しかし.小坊主が20代前に大量に志望しています。正規分布になる集団だけを意図的に集めた場合です。 医学関係では「大多数の正常値を示す群を含まないような上件での少数」を意図的に集める(病人と診断する)ことをしますが.ご質問者の趣旨には合わないでしょう。 宝くじの確立。法律上「ランダムな数字」を選ぶことになっています。だからマスコミで「どの売り場があたりやすい」等の情報がありますが.このとおりならば法律違反になります。 つまり「たまたまこのような傾向が出た」という現象を報道しているに過ぎません。疫学関係の実験ではこの「たまたまこのような傾向が出た」ことを「統計的に求められた物事」として報告している方もいますし.このような行為を宣伝していた疫学の大家と呼ばれている学者もいます。 数学的証明まては必要ありませんが.統計を使った論法以外の論法で「差が出る」ことを示すことができない「実験」は.統計処理をして出した結果が「たまたまそうなったものであり意味を持たない」ことになります。
お礼
No.1-No.8の皆さん、ありがとうございました。私のような素人には少々戸惑う回答もありましたが、大変参考になりました。
- c80s3xxx
- ベストアンサー率49% (1635/3295)
すでに出ているように,統計処理ができるかどうかは,その統計処理が前提としているような分布関数で十分な近似ができるかどうかだけの問題であって,対象となるデータがどのような物理的な意味合いを持っているかどうかとは何ら関係はありません.つまり pH が対数を取ったものであるから,ということには何の意味もないのです. 実際の pH の分布が正規分布で近似できるようであればそのまま処理すればよいし,そうでないなら他の適当な分布関数で近似できるかを検討し,その関数を前提とした統計解析を行えばいいだけのことです. 母集団の分布が正規分布になっているかどうかわからなくても,サンプリング平均の分布が正規分布に近づくという,中心極限定理を利用して解析することができます.この辺は統計学の本をあたってください.
>ある実験をし の結果得られた「ph」が正規分布を取ることが予想できれば(機械の表示誤差等).度数分布をとって「生気ぷんぷになっている」ということを示す。以後.統計処理が可能。 ただn=100です。 既にこのデータを指導者の方が持っているのではありませんか。「正規分布にならないので統計処理不能である」と。 これが溶液の状態を調べる目的の場合は.対数で効いて来ますから対数を殺して正規分布になるような指標に換算するひつようがでてきます。運良く測定値が正規分布になっていれば.統計処理が使えます。 数が少ない場合に.グラフに両者を描いて度数ぷんぷを描いてください。偏りがあれば.誤差分析が使えます。「同じではない」という結論しか出ませんが。
- Tacosan
- ベストアンサー率23% (3656/15482)
「対数で表現してるから算術平均をしてはならない」ってのは, 要するに「真数の幾何平均を求めてはならない」ってことなんですが, これそのものは無意味ですね. 奥に深い意味があるのかもしれませんが.
- kgu-2
- ベストアンサー率49% (787/1592)
>私のデータは対応ある組ではありませんので、適用できないと思います。 私の記憶では、比較する両群のデータ数は、同じである必要は無かったように記憶しています。すなわち、対応する組である、という前提は不要なので、利用できると判断しています。 また、No3のindokenさんのご意見にも賛成します。回帰分析をすると、図の左の方に固まったデータでものを言ってる論文などをみますが、『対数変換すれば・・』と思ってしまいます。
- indoken
- ベストアンサー率37% (173/457)
全くの私見で、自信があるわけではありません。 しかし、普段普通にpHの平均値を使っている立場上、一言。 pHが対数値に由来することは確かですが、それは算術平均や統計処理をしてはならないと言う理由には全くならないと思います。正規分布などの前提条件が満たされれば普通に平均を示し、有意差検定をすればよいと思います。 世の中には、対数正規分布するものがたくさんあります。この場合、わざわざ対数をとって、平均を示し、有意差検定をします。
- kgu-2
- ベストアンサー率49% (787/1592)
>対数表現しているpHは単純に算術平均や統計処理をしてはならない それでは、どのようにすれば良いのか、指導者の方に指示を仰ぐべきですが・・・ 平均値は、代表値の一つです。ですから、全体の様子を表現する代表値で、平均値を使う場合には、前提条件があります。その値の分布が、正規分布しているか、または正規分布していることが十分に推定できる必要があります。 データー数が多ければ、正規確率紙などで、確認できるそうです。 正規分布が証明できない場合は、中央値を用いますが、理系の研究では、ほとんど見たことがありません。平均値は、t検定につなげることができますが、中央値を利用した検定法は、知りません。 データ数が多いなら、A群、B群それぞれ10くらいある場合、私なら順位差検定を使います。これは、分布に依存しませんので、利用することができます。
お礼
>指導者の方に指示を仰ぐべきですが・・・ 自分なりに調べた上で指導者に尋ねようかと思っています。とエラそうなことを言うものの、本サイトで皆さんに助言を頂いている時点で矛盾してますね(反省)。 早速のご回答、ありがとうございます。参考になります。順位差検定とはウィルコクソンの符号つき順位検定でしょうか。または、フリードマン検定でしょうか。いずれにしても、私のデータは対応ある組ではありませんので、適用できないと思います。ただ、今後の勉強のためにも参考になるHPがありましたらお教え下さい。
お礼
回答ですが、早速ありがとうございます。参考になりました。ただし、範囲で表現する方法には疑問を感じます。最大値または最小値(またはともに)が外れ値をとった場合、実際のデータ分布とはかけ離れてしまいます。また、統計的に外れ値として外すことも難しいのではないでしょうか。さらに、そもそも範囲での表現は定性的だと思います。 これらのこともあり、定量的に表現できる方法を探しています。ちなみに、データ数はA:10、B:30です。