- ベストアンサー
EXCELのグラフについて
あるデータをもとに3次の多項式曲線(自然スプライン曲線)を計算し、 EXCELで描画しました。 R^2値=0.9937 です。 試しに次数を5次と入力すると R^2値=0.9999 となりました。 3次式でプロットしてあるものに対し、5次と入力することにより R^2値がより向上したので、5次の曲線を使ってもよいものなのでしょうか。
- みんなの回答 (3)
- 専門家の回答
質問者が選んだベストアンサー
質問内容を確認すると, あるデータから3次多項式の自然スプライン曲線を作った。 スプライン曲線から計算される数値データをエクセルに入れて,3次式で近似するとR^2=0.9937, 5次式で近似するとR^2=0.9999だった, ということでしょうか? 厳密に3次式で表されるデータを,3次曲線にあてはめて近似すれば,完全に近似できるのでR^2=1.0になるはずです。 3次の自然スプライン曲線で表すとは「各区間では3次式だが区間ごとに係数が変る式」という意味です。 全体を1本の3次式で表した場合より,細かい表現になっています。全体を1本の近似多項式で表そうとすれば,多項式の次数を5次に上げれば,よりよく近似できて当然です。 質問内容を誤解していたらごめんなさい。
その他の回答 (2)
- stomachman
- ベストアンサー率57% (1014/1775)
モデルがデータを良く説明できている場合、近似を使ってAIC(赤池の情報量規範)を簡略化できます。すなわち、データの個数をn、モデルのパラメータの個数をf (k次式ならf=k+1)、そして残差二乗和をSとするとき、ln( )は自然対数として n ln(S) + 2f が小さいのがbetterだ、という判定をする。 この式は、「パラメータをm個増やすことで n ln(S)が2m以上減るのなら増やした方がいいが、さもなきゃ増やすのは過剰だよ」という意味ですね。 しかし、「これを使えば正しいモデルを見つけられる」という訳ではありません。あくまで「どっちがましか」という話です。
- at9_am
- ベストアンサー率40% (1540/3760)
> 3次式でプロットしてあるものに対し、5次と入力することによりR^2値がより向上した 当然、次数を増やすとr^2は向上します。減ることはありません。 例えば年間降水量の説明変数に猫の体重を入れても、入れる前よりもr^2は必ず同じか向上します。 これは、例えば最小二乗法であれば y = a0 + a1 x1 + ...+ an xn という式で当てはめを行った場合の残差wを w = b0 + b0 z1 という当てはめを行っているのと同じことを行うことになります。 > 5次の曲線を使ってもよいものなのでしょうか。 この結果からいえば、自由度調整r^2を考えれば下がっていると思われる(標本数が分からないので正確には分からないが)ので、良くないと思います。 いずれにしても、AICかBICを使って判定する方がモデル選択としては良いと思います。
お礼
FT56F001さん、ありがとうございます。 納得がいきました。