- ベストアンサー
予測濃度と実測値の比較方法 検定、相関
地下水の汚染物質の濃度分布をある方法で予測しました。実測値がある地点(20地点程度)について予測値との比較をして予測方法の妥当性を検討したいと思っています。何かいい方法はありませんでしょうか。とりあえず思いつくのは実測値を横軸、予測値を縦軸に取って散布図を作って相関を見てみようかというくらいしかありません。何かの検定で統計的に実測値と予測値はよく一致しているというように言えるようだといいと思うのですが。。。回答よろしくお願いします。
- みんなの回答 (5)
- 専門家の回答
質問者が選んだベストアンサー
No2です。 >汚染源に例えば、農業施肥と家畜排泄物があります。施肥した窒素のうち地下水に浸透する割合がパラメータAで0.2から0.4の範囲にある。同様に家畜排泄物に含まれる窒素のうち地下水に浸透する割合がパラメータBで0.3から0.5の範囲にある。 話がかなり違ってきたので。というのは、理論式は確定していると考えました。というのは、 >実測値を横軸、予測値を縦軸に取って とあったので、実測値が理論値にあっているかどうか、すなわち、理論値(理論式)は確定していると判断したからです。理論式が実測値にあっているかどうか、むしろ、理論式をだしたい、しかも、理論式には変数(独立変数)が2つはあるらしい、というのでは、私が想像した単回帰分析では無理です。 重回帰分析でうまくいくと良いのですが、次の不安があります。 1) 単回帰分析に精通していないように見受けますが、重回帰分析は、・・・。単回帰分析よりは、重回帰分析の方が難しいので。 2) 数値をぶち込めば、あとはパソコンで処理できますが、導き出した重回帰式の説明ができるかどうか(適否の判断ができるか否か)。 平均寿命の解析をしていて、平均寿命は、医師の数は多いほうが、看護婦数は少ない方が良い、という式をパソコンは導きますので。 3) 現在の重回帰分析は、説明変数は1次です。ですから、説明変数を対数や2次以上の次数に変換するか否か、この判断には、経験が必要になります。 以前にやった経験は、y=a(sin(x+θ)+bの理論式で、a,b,θを決めました。xに測定した条件を決め、a,b,θの最適な値を、実測との相関分析によって求めました。 この3つの数値は、BASICで求めたのですが、FOR~NEXTが3段階なので、時間が掛かりました。これも、理論式はy=a(sin(x+θ)+bのハズ、と分かっていたので、可能でした。 想定されている理論式が分からないと、なんとも言えません。 それに、説明変数も、肥料と排泄物だけではなく、餌の食べ残し、植物や微生物の死骸から、さらには雨量やN化合物からのNO2への変換効率(タンパクなのかアミノ酸なのか)、あるいは地下水だと、他の地域からの流入などなど、まだまだ変数が必要だと(素人考えですが・・・)。 変数が不足していると、相関異数は当然小さくなって、使いものにはなりません。重回帰分析なら、変数を多く用意しておいて、相関係数が高くなる変数を加えたり減らしたりすることで、最適な式を導く方法もあります。 もっとも、肥料と排泄物だけでやってみて、相関係数が高ければ、それでOKというのも有ですが。
その他の回答 (4)
- backs
- ベストアンサー率50% (410/818)
> 『予測計算に使うパラメータAの値はここからここの範囲、パラメータBの値はここからここの範囲でこれらを使って計算されるセルCの値(予測値)とα(実測値)、セルDの値とβそれぞれの差の合計が最小になるようなパラメータA,Bの値の組み合わせを見つける』とういうようなことはVBAなどでできるのでしょうか。 「できないことはない」としかいいようがないのですが,もう少し具体的に例データを提示してくだされば,何か助言できるかもしれません(もちろん,私のレベルを超えていれば無理ですが、、、)。 重回帰分析についても,どのような形式のデータであるのかが分からないと,ちょっと分からないですねぇ。
お礼
具体的には、地下水の硝酸性窒素汚染を予測しています。汚染源に例えば、農業施肥と家畜排泄物があります。施肥した窒素のうち地下水に浸透する割合がパラメータAで0.2から0.4の範囲にある。同様に家畜排泄物に含まれる窒素のうち地下水に浸透する割合がパラメータBで0.3から0.5の範囲にある。CまたはDの値に影響を与える施肥量と家畜排泄物量がそれぞれわかっているときにC、Dそれぞれが実測値α、βに近づくようにAとBの組み合わせを探したい。というようなケースです。 まだいまいち内容が伝わらないかもしれません。VBAなどプログラミングはやったことがないので「できないことはない」というご意見だけでも十分です。無理に回答いただかなくても大丈夫です。ありがとうございます。
- kgu-2
- ベストアンサー率49% (787/1592)
No2です。続きを 注意点としては 1) データは、散布図中に偏ってはいけません。例えば、1、1、2、2、3、28などのように、1つの点が離れていると、高い相関係数がでます。これは学術論文でさえ、そのような散布図を見つけることができます。 この場合は、数値を対数変換すると、偏りが少なくなることがあります。 2) 相関係数を求めるための回帰式は、直線である必要はありません。2次式や3次式の方が、高い相関係数が得られる場合もあります。私はそのよう回帰式を使いませんが(2次式や3次式になる根拠が説明不能なので)。 散布図を眺める、というのは、2)普通一次回帰式を使いますが、対数変換したり、の方が高い相関係数が得られる場合もあるからです。また、1)一つだけ飛び離れた点があり、それによって誤った結論になるのを防ぐためです。 同じ回帰式でも、「違った回帰式である」ことについて有意差検定もできるようです(本は手許にあり、初心者の私でも出来そうです)。が、この場合の「同一の回帰式」であることの証明とは、目的が正反対なので、使えません。
お礼
丁寧なご説明ありがとうございます。この方法を試してみようと思います。肯定する検定は無いようですね。そういえば、前にも「正規分布している」という検定をしたいと思ったのですが、「正規分布していない」というのしかなく残念だったことがありました。
- kgu-2
- ベストアンサー率49% (787/1592)
>実測値を横軸、予測値を縦軸に取って散布図を作って相関を見てみようか 統計学的には、普遍的かつ正当な方法です。 実際には、この方法で散布図を描き、相関係数を求めます。相関係数とデータ数から、t-検定で判定します。データ数が20なら、相関係数は、0.444以上あれば、危険率5%以下で有意差あり、すなわち、両者に関係ありと判断されるので、予測方法としては妥当という結論を導けます。 この方法は、新しい測定法を開発したときに、その方法が妥当かどうかの判定に使います。 すなわち、同一サンプルについて、旧方法での値をX軸に、新方法での値をy軸にとって、相関係数が有意で無いと、新しい方法が適切とは言えません。 ただ、相関係数が0.4程度になると、あまり一致しているような印象にはなりませんが、相関係数だけではなく、散布図も眺めることは必要です。
- backs
- ベストアンサー率50% (410/818)
> とりあえず思いつくのは実測値を横軸、予測値を縦軸に取って散布図を作って相関を見てみようかというくらいしかありません。 普通は実測値に理論曲線を当てはめて予測値を求めるのですから,その曲線がよくフィットしているかで「実測値と予測値はよく一致している」ということがいえるのですが,状況が違うようですね。 質問者さんの方法だと,例えば, 実測値 = (1, 2, 3, 4, 5) 予測値 = (1, 2, 3, 4, 5) というのが完全に一致している状態ですよね(つまり相関係数が1であるということ)。それに対して,質問者さんが得た予測値を 実測値 = (1, 2, 3, 4, 5) 予測値 = (1.231, 2.119, 3.341, 4.512, 5.129) とすれば2つの直線(曲線)ができますよね?この平行間の距離を求めて一致しているかどうかを確かめる方法が使用されていたことがあります(ちょっとどの論文だったか思い出せないのですが)。
お礼
回答ありがとうございます。おもしろい方法ですね。今回の予測はいくつも不確定な要素があってその設定次第で予測値が変わってきます。設定を変えてみて距離が最小または、各比較地点の差の合計が最小になるような設定を探してみようかと思いました。もし、論文の名前など思い出すようでしたら教えていただければ幸いです。(以下は思いつきで聞いていますので無視していただいても結構です)計算はエクセル上でやっているのですが、『予測計算に使うパラメータAの値はここからここの範囲、パラメータBの値はここからここの範囲でこれらを使って計算されるセルCの値(予測値)とα(実測値)、セルDの値とβそれぞれの差の合計が最小になるようなパラメータA,Bの値の組み合わせを見つける』とういうようなことはVBAなどでできるのでしょうか。実際にはパラメータはもっとたくさん、予測と実測の比較ももっとたくさんあります。VBAというのは全く使ったことがないので思いつきで聞いています。もしわかるようでしたら教えていただけますでしょうか。それとも重回帰分析というもの(これもやったことがないですが)をする方が現実的でしょうか。
お礼
丁寧なご説明ありがとうございます。説明変数自体を変換するようなケースもあるのですね。まだ敷居が高そうです。一応、SPSSが職場にあって多変量解析を行える環境にはあるのでだんだん練習していこうと思います。