- ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:統計解析のクロスバリデーションについて)
統計解析のクロスバリデーションについて
このQ&Aのポイント
- 統計解析において、クロスバリデーション法でRMSEなど算出する際、分割数が異なると計算結果は異なる。
- 2foldや3foldなどの分割方法によっても計算結果が変わるが、平均値をとれば良いのか、それが適切か疑問がある。
- 計算結果が毎回大きく変動する場合、モデルの精度が低い可能性がある。
- みんなの回答 (1)
- 専門家の回答
質問者が選んだベストアンサー
resampling では普段 bootstrapping を使っており、cross validation は理屈だけわかってるつもりながら実務経験がほとんどない者です。詳しい人が答えてくれるだろうと思っていたら回答が付かないので、しゃしゃり出ました。参考程度に考えてください。 > RMSEの値は何回か計算した場合の平均値としてよいのでしょうか? 良いです。 > 平均したり、はたまた良い方の結果を採用するのは不適切ですよね? 良い方の結果を採用するのは論外ですけど、平均は妥当です。cross validation は予測誤差の分布を推定していて、その分布は通常、平均と標準偏差を持つと考えるのが自然ですから。 > 計算結果がその都度大幅に変わってしまうときはモデルとして精度が低いということなのでしょうか。 計算結果が予測誤差の標準偏差を指し「モデルとして精度が低い」とは「予測が当たらない」という意味なら、そのとおりです。普通の意味の精度である「母数の推定量の分散の逆数」ではありません。 なお、英語版 wiki の resampling http://en.wikipedia.org/wiki/Resampling_(statistics) からの link 先である日本語版 http://ja.wikipedia.org/wiki/リサンプリング は、統計でいわゆる resampling の説明ではありません。 ついでながら、resampling を理解するには推定量(確率変数)と推定値(実現値)をはっきり区別するのが大切と思います。
お礼
ur2c様 ご回答ありがとうございます! もう誰にも回答いただけないと諦めていました。 RMSEは平均値で妥当とのことですっきりできました。 統計の基礎的なところから、勉強したいと思います。 どうもありがとうございました!