- 締切済み
線形混合モデルにおけるモデル適合度判定方法について
線形混合モデルの異なるモデル間におけて適合度を判定したい場合,AICやBICなどのモデル適合度の判断基準を用いるかと思いますが,両モデルで観測数(もしくは自由度)が異なる場合はAICなどを使用することができません。 この場合,どのようにしてモデルの適合度を判定すればよいのでしょうか? (簡単に言うと,観測数500,AIC500のモデル1と観測数300,AIC300のモデル2ではどちらがモデルとして適合していると判断されるのか?) できましたら,SPSSでの判定方法を教えていただけると助かります。(Rでも可) どなたかご存知の方がおられましたらご教授ください。 よろしくお願いいたします。
- みんなの回答 (2)
- 専門家の回答
みんなの回答
- ur2c
- ベストアンサー率63% (264/416)
この場合,data set は size が 100 で,説明変数は x1, x2, x3 の 3 つだと考えます.そして競合する models は「モデル1」( x1, x2 のみ)と「モデル2」( x1, x2, x3)です. まず data set から x3 が欠測のものを除去した,大きさが 80 の subset でモデル1とモデル2を比較してみるのはいかがでしょうか?もしもその結果モデル1の AIC がモデル2の AIC よりも小さかったら,おっしゃるとおり,欠測値の処理が怪しいです. 欠測値の扱いにはいろんな流儀があります.たとえば欠測がある data items は全部,data set から削除するという考え方もあります.また,impuation と言って,他の data との整合性を考えると,欠測値はこうだったはずだ」として,欠測値を仮の値で埋めてしまうやりかたもあります.他の方法もあるようです.どんな扱いかは manual に書いてあるでしょう.
- ur2c
- ベストアンサー率63% (264/416)
情報量基準は,ある 1 つの data set に対して複数の(parameters の数が異なる) models があるとき,いずれが相対的に適当かを示す指標です.(適合度という言葉は,統計ではもっと狭い意味で使うことが多いです.) Data set は 1 つに固定ですから「両モデルで観測数が異なる場合」というのは,ありえないように思います.具体的にどんな事例なのでしょうか?
補足
言葉足らずの質問ですみません。 少々補足させていただきます。 観測数(サンプル)が100の説明変数x1とx2を投入した「モデル1」とモデル1に観測数80の説明変数x3を加えた「モデル2」の適合度を比較するためにAICやBICなどを算出したとします。 (つまり,説明変数x3は欠測数が20あるということ) 私はAICなどの算出過程を理解しているわけではないため,分析経験を踏まえた話となりますが,上記の例の場合,モデル1よりもモデル2のAICなどの情報量基準が格段に小さくなります。 投入した説明変数x3の説明力が非常に高くて,「モデルが改善された」とも考えられますが,x3の説明力が大して有効ではない場合でも,情報量基準は非常に小さくなるため,これは「モデルが改善された」とは考えられず,むしろ,説明変数x3を加えた「モデル2」におけるデータセットが,観測数が100あったモデル1とは異なり,欠測が生じたためによって情報量基準算出過程において値が小さくなったと考えられるわけです。(推測が含まれていますので正確ではないかもしれませんがお許しください) 以上のような場合は,情報量基準の単純比較によるモデル適合度の判断ができないものと思われます。 というわけで,質問につながるわけなのですが…。 もしかしたら,私が根本的に何か勘違いしているのかもしれませんが…。 もし,お気づきの点があればご指摘ください。 よろしくお願いいたします。
補足
ご丁寧に説明していただきありがとうございます。 私的な考えも含まれるものかと思いますが,基本的には存在するデータを最大限活かすため,SPSSでは欠損値を「ペアごとに」除外したり,Rではスクリプト上に「na.action = na.omit」で定義付けすることが一般的か思いますし,私もそのようにして分析しています。 ご指摘のように,私の質問に答える一つの手立てとして,「data set から x3 の欠測値を除去した,大きさ 80 の subset でモデル1とモデル2を比較する」ことが考えられます。 ただ,観測数が100程度のデータセットならまだしも,何千何万という大きさのもので,さらに検討すべき説明変数の数が多い場合,上記のような作業は少々煩雑となってしまいます。 (最初から欠測のないデータセットを作成してから分析すれば問題はないのですが,前述のとおり「存在するデータを最大限活かす」ことが前提条件としてあるため,可能なら最小のデータベースとしたくはありません) 同様のデータセット(つまり,検討すべき説明変数が多数あり,それぞれの説明変数で欠測の箇所や数が異なるもの)で分析している方は多数おられるかと思いますし,また検討モデルの適合度の判定もされているものかと思います。 このような方たちは,一体どのようにしておられるのだろう…?という疑問から質問させていただいた次第です。 すみません。 結局,堂々巡りのようなコメントとなってしまいました…。