- 締切済み
統計 単回帰 Xに性別はOKですか?
大変お世話になります。 単回帰について教えてください。 単回帰のxに性別を入れてyとの関係をみることはできないのでしょうか?(StatFlexという統計ソフトを使用しています) 具体的には被験者の性別をx、サイトカインの血中濃度をyとして、単回帰を施行したいのですが、データベース型にサイトカインの値と、性別(M or F)を入力しても、統計>多変量解析>2変量統計で進んでいくと、X軸y軸共に選択肢に性別があがってきません。ダミー変数にしてみてもかわりませんでした。 また同様に病期1,2,3,4についても、選択肢に上がってこないのですが、 xには性・カテゴリーなどは使用できないのでしょうか?連続変数でないといけないのでしょうか? 統計不慣れなもので、常識内の質問であったらお許しください。
- みんなの回答 (4)
- 専門家の回答
みんなの回答
- backs
- ベストアンサー率50% (410/818)
> 使用しているソフトでダミー変数としてみても、やはり説明変数の選択肢にあがってきませんでした。 ならば0-1データ行列にして通常の回帰分析を行えばよいのです。先の返信で私があげたHeight, Weight, Sexの例ならば: Height = {177, 178, 170, 180, 160, 155, 164, 170} Weight = {80, 77, 70, 75, 50, 60, 66, 49, 69} Sex = {1, 1, 1, 1, 0, 0, 0, 0, 0} というような変数を用意してHeightを応答変数、WeightとSexを説明変数とした重回帰を行えば同じことです。 > STATFLEXでのカテゴリカル型の単回帰の手法をご存じであれば、おしえていただけませんでしょうか? 残念ですが、私はSTATFLEXについて知らないので助言できませんね(^_^;) > また分散分析をした際にはy=a+bxの係数の値をえることは可能でしょうか? もちろん可能です。例えば、Rでは対比行列の第1列がベースラインとされるので、第1水準が男性、第2水準が女性ならば切片aが男性の平均値、a + bが女性の平均値ということです。 参考URL: http://homepage2.nifty.com/nandemoarchive/toukei_hosoku/anova_kaiki.htm http://homepage2.nifty.com/nandemoarchive/GLM/2_onefactor_anova.htm ちなみに、No.2さんが説明してくださっている > 大袈裟に言えば、女性=-1234 男性=3456789 でもよいです。 についてですが、これは数値をラベルとして指定する場合の話で、分散分析モデルとして解析する際には、必ず0-1データで因子のコーディングが行われます。統計ソフトでカテゴリカル型の変数を直接指定できても、内部的には0-1データ行列に変換され、解析されることになります。 なお、どのようなコーディングがなされるかはソフトによって異なりますが、RではMinitabで採用されているものや、SASで採用されているものを指定することができます。
- sanori
- ベストアンサー率48% (5664/11798)
再びお邪魔します。 すみません。 「女性=0、男性=1 でも、女性=-1234 男性=3456789 でも、相関係数は同じ値になります。」 と書きましたが、 グラフにしたとき右上がりの場合は相関係数はプラス、右下がりの場合は相関係数はマイナスとなります。 絶対値は同じです。 失礼しました。
- sanori
- ベストアンサー率48% (5664/11798)
こんばんは。 できますよ。 多くのパソコンにインストールされているエクセルを使っても、超簡単にできます。 女性=0、男性=1 でもよいし、大袈裟に言えば、女性=-1234 男性=3456789 でもよいです。 (女性=-1、男性=+1 とするのが‘美しい’かもしれません。) しかしながら、 がんばって回帰したところで、女性の濃度の平均と男性の濃度の平均とを比較することと変わりませんよ。 回帰をする意味があるとすれば、相関係数を求めることです。 私も仕事で、その手法は使いました。非常に有効でした。 女性=0、男性=1 でも、女性=-1234 男性=3456789 でも、相関係数は同じ値になります。 相関係数の絶対値が1に近いほど強い相関、0に近いほど弱い相関となります。 ご参考になりましたら幸いです。
- backs
- ベストアンサー率50% (410/818)
できます。 性別というのはダミー変数といって0と1で表現することができます。男性=1、女性=0といったように。 要するに、 x = {Male, Male, Female, Male, Female, Male} というデータは、 x' = {1, 1, 0, 1, 0, 1, 0} と置き換えることができるのですね。これを説明変数として指定すれば、おそらく、どの統計ソフトでも計算してくれるでしょう(してくれないのだとしたら、あまりそういうモノは使わないほうがよいかも・・・)。 ちなみにですが、こういうデータのことをカテゴリカルデータといいますが、説明変数には連続データ(いわゆる数量的なデータといわれるもの)でも、カテゴリカルデータでも、はたまた両方を混在させることもできます。 身長 = 体重 (説明変数が連続型のみ: 単回帰分析) 身長 = 性別 (説明変数がカテゴリカル型のみ: 分散分析) 身長 = 体重 + 性別 (連続型とカテゴリカル型が混在: 共分散分析) つまり、あなたがしている(しようとしている)ことは分散分析のことなのです。ダミー変数を用いた回帰分析と呼ぶ人もいますが、同じものです。
お礼
分かりやすいご説明いただきましてありがとうございます。 説明変数がカテゴリカル型でも可能であるということがわかりました。 ただ使用しているソフトでダミー変数としてみても、やはり説明変数の選択肢にあがってきませんでした。 ソフトの使い方がうまくできていないのかもしれません。 STATFLEXでのカテゴリカル型の単回帰の手法をご存じであれば、おしえていただけませんでしょうか? また分散分析をした際にはy=a+bxの係数の値をえることは可能でしょうか?ご教授お願い致します。