- ベストアンサー
統計学 重回帰分析についての問題
- 統計学の重回帰分析についての問題です。
- 米国の大気汚染に関するデータを用いて、重回帰分析を行います。
- 分析結果から示される回帰式の性能についても考察します。
- みんなの回答 (5)
- 専門家の回答
質問者が選んだベストアンサー
- ベストアンサー
> > slm1<-step(lm1) > とすると回帰診断ができますがこれはいらないですかね?? 変数選択をしたいわけではないので不要です。 > (2)、(3)もなんなのかよくわからないです。 というのは、問題の意味がわからないのでしょうか? それとも、意味はわかるけど解析結果から読み取れないということでしょうか? 前者なら基本から勉強しなおしましょう。 とりあえず、ヒントをだしますと、 > (2) (1) で求められる重回帰式を記せ. 重回帰式とはこの問題でいえば SO2 = a + b×Temp + c×Manuf + d×Pop + e×Wind + f×Precip + g×Days という関係式のことです。 係数のa~gは「Coefficients:」の「Estimate」に書いてあります。 > (3) (1) における自由度調整済み寄与率を求めよ.また,この値から,(1) で求められた回帰式の性能について何が言えるか. 自由度調整済み寄与率は、「Adjusted R-squared:」にあります。 寄与率は1に近いほどよい回帰式が得られたことになります。
その他の回答 (4)
> 「Call:」以下は重回帰分析に関係のあることが書いてあるのですよね?? 勿論そうなのですが、 > 「Residuals」の5つの数値は何を意味してるのでしょうか?? > 「Coefficients」は4種の数値がありますが、これはすべて係数を意味してるのでしょうか?? このあたりは、基本的なところなので参考書等を見ましょう。 とはいえ、これだけで終わるのもなんですので、簡単に説明をしておきましょう。 Residualsは残差、standard errorは標準誤差、F-statisticはF統計量、p-valueはp値のことです。 残差は「従属変数の値-重回帰式による予測値」であり、標準誤差は求めた係数がどこまで信頼できるか、F統計量はその回帰式が意味のあるものかどうかの判定に使われ、p値は従属変数が独立変数とは無関係で合った場合に、得られたF統計量より極端な値が得られる確率を意味します。
お礼
回答ありがとうございました!! 正直英語の意味が分からず困っていました…。 親切な回答、大変勉強になりました。 ありがとうございました。
> …こんな感じで解答しようと思うのですが、どうでしょうか?? いいと思います。
お礼
ご指導ありがとうございました!! 問題は解決したのですが… 「Residuals」の5つの数値は何を意味してるのでしょうか?? 「Coefficients」は4種の数値がありますが、これはすべて係数を意味してるのでしょうか??「Estimate」は「係数の最小2乗推定値」であることはわかるのですが… 「Residual standard error:」、「F-statistic:」、「p-value: 」の値も、 > lm1<-lm(SO2~Temp+Manuf+Pop+Wind+Precip+Days,data=usair) において、重回帰分析を実行し、以下、実行結果の要約となっているので、「Call:」以下は重回帰分析に関係のあることが書いてあるのですよね??
> (2)について… > ただ単に(1)のRの結果より、SO2=a+b×Temp・・・を行列式であらわして終わりでよいのでしょうか?? 行列式とはいいませんが、それだけで良いですよ。 > (3)について・・・ > どのような基準で近いとかの判断をすればよいのでしょうか?? 寄与率(自由度調整済も含み)は従属変数の変動をどれだけ説明しているかの目安で、分野や解析者によって判定基準が異なるので一概には言えませんが、0.9以上あれば十分よいといえると思います。 > あと、「Multiple R-squared」は寄与率ですが、寄与率と自由度調整済寄与率の違いとは何なのでしょうか?? 寄与率は変数を加えると必ず大きくなります。 例え、全く意味のない変数だとしても大きくなってしまい、それを防ぐために自由度で調整しています。
お礼
回答ありがとうございました。 (2)について… 行列式なんて変なことを言ってすみません!! 解決しました!! (3)について… 自由度調整済み寄与率は、「Adjusted R-squared:」にあるから、 0.9095 である。 寄与率は 1 に近いほどよい回帰式が得られたことになる(なぜならば、寄与率は目的変数の変動のうちの回帰による変動の割合を示しているから)から、およそよい回帰式が得られたと考えられる。 …こんな感じで解答しようと思うのですが、どうでしょうか?? 回帰式の性能について不足せずに答えられているでしょうか?? ご指導よろしくお願いします。
> NAって何かよくわからないのですが、数値が出ていないので間違っていると思うのですが… > どうすればいいですか?? 理由は簡単で > SO2 を目的変数,残りの6 つを説明変数 とあるように、指定されていないCityまで入れてしまい、ダミー変数が増え、データ数より変数が多くなってしまったからです。 Cityははずしましょう。 ちなみにNAの意味はNot Availableで利用できないという意味です。
お礼
回答ありがとうございます。 説明変数を指定して対処しました!! > usair<-read.table("clipboard",header=TRUE) > usair City SO2 Temp Manuf Pop Wind Precip Days 1 Phoenix 10 70.3 213 582 6.0 7.05 36 ・・・ 13 DesMoines 17 49.0 104 201 11.2 30.85 103 > attach(usair) > lm1<-lm(SO2~Temp+Manuf+Pop+Wind+Precip+Days) > lm1<-lm(SO2~Temp+Manuf+Pop+Wind+Precip+Days,data=usair) > summary(lm1) Call: lm(formula = SO2 ~ Temp + Manuf + Pop + Wind + Precip + Days, data = usair) Residuals: Min 1Q Median 3Q Max -11.603 -2.867 1.186 4.603 7.254 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 119.617244 54.950275 2.177 0.0724 . Temp -1.160788 0.593868 -1.955 0.0984 . Manuf 0.036889 0.016176 2.281 0.0628 . Pop -0.010830 0.016201 -0.668 0.5287 Wind -8.634580 3.804757 -2.269 0.0637 . Precip 0.007181 0.503908 0.014 0.9891 Days 0.414861 0.313471 1.323 0.2339 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 8.303 on 6 degrees of freedom Multiple R-squared: 0.9548, Adjusted R-squared: 0.9095 F-statistic: 21.11 on 6 and 6 DF, p-value: 0.0008637 こんな感じになりました!! あとこの後に > slm1<-step(lm1) とすると回帰診断ができますがこれはいらないですかね?? そして例題みたいなものをもとにとりあえずRでやってみたのですが意味がよくわからないので(2)、(3)もなんなのかよくわからないです。 なのでいろいろ指導していただきたいです!!
お礼
回答ありがとうございます。 (2)について… 「Coefficients:」の「Estimate」がそれぞれの係数であることはわかるのですが、どのように答えればよいのかが分からなくて… ただ単に(1)のRの結果より、SO2=a+b×Temp・・・を行列式であらわして終わりでよいのでしょうか?? (3)について・・・ 自由度調整済み寄与率は「Adjusted R-squared:」より、0.9095 であることはわかるのですが、この値から(1)で求められた回帰式の性能について言えることが何なのかわからなかったのです。 >寄与率は1に近いほどよい回帰式が得られたことになります。 とのことですが、どのような基準で近いとかの判断をすればよいのでしょうか?? あと、「Multiple R-squared」は寄与率ですが、寄与率と自由度調整済寄与率の違いとは何なのでしょうか?? ご指導よろしくお願いします。