- 締切済み
統計-回帰分析 最小二乗法 使用方法について
ある試験の得点分析を依頼されたのですが、統計学の回帰分析の正しい使用法がわからず困っております。 そこで皆様の知識をお借りしようと思った次第です。 10万人が受験している100点満点の試験(A)と、5千人が受験している100点満点の試験(B)があります。 試験(B)を受験している生徒の80%が試験(A)を受験しています。 試験(B)は難易度が高い問題と難易度が普通の問題の2種類が用意されており、試験(A)での中~高得点層が難易度の高い問題を、低~中得点層が難易度の普通の問題を選択しています。 試験(B)の精度を試験(A)の精度に近づけるために、試験(A)(B)両方の試験を受験した生徒を対象に最小二乗法で試験(B)を試験(A)に換算しようしました。 その結果、試験(B)の難易度高の換算SSと難易度中の換算SSは、近似値になるのかなと思っていたのですが、大きく異なります。 やはり、100点満点という限界値があると高得点層は頭打ちしてしまい正しい結果が得られないのでしょうか? それとも換算の仕方が間違っているのでしょうか。 そもそも、そのような事はできないのでしょうか。 よろしくお願いいたします。
- みんなの回答 (3)
- 専門家の回答
みんなの回答
- kgu-2
- ベストアンサー率49% (787/1592)
SSという単語が出てきますが、不勉強でしりません。その単語を使って考える必要性を感じませんので、理解できない点が多いのですか >誤差というには差が大きく、平均SSでの得点差は11(300満点で)もありました。 300点満点で11点なら、4%未満。大したことは無い、とも言えますが。 >B1切片係数:32.1729116315614 B1X値係数:0.546605341463663 B2切片係数:10.9904071287823 B2X値係数:0.672136632625494 全てのデータを一つの散布図で図示し、貼付けてもらえないと、文字だけでは困難です。 1) B1(円)とA(ドル)との回帰式から、B1を代入しAの値に換算する。 そして、B1とAの値を散布図に○でブロットする。 2) B2(元)とA(ドル)との回忌式に、B2の値を代入してAの値換算する そして、B2とAの値を同じ散布図上に□でブロットする。 その散布図を見て、考えて下さい。 文字のやり取りでは無理です。散布図を写真にし、貼付けて見せて下さい。ただ、それは仕事上の秘密の漏洩に繋がるので、慎重に対処して下さい。 回帰係数や切片に差がありそうに見えますが、1本の線を引いてもそれほど差は無いような予感がしますが。 ○と□の全ての近く通る線(=回帰式)が引けるようなら、解決です。 引けないのなら、テストの試験が不適である可能性が高い。 回帰分析は正規分布を前提としているので、試験の正答率が正規分布していないと、不適になることが多い。この場合気になるのは、B1とB2でグループ分けしているので、Aの得点分布は正規分布しにくい懸念がありますので・・・。 ともかく、散布図を作り、よく考えて下さい。繰り返しになりますが、文字のやり取りでは、無理です。
- kgu-2
- ベストアンサー率49% (787/1592)
一番簡単なのは、B1とB2の両方を受けた人のみで回帰式を得れば十分。 これが出来ないようなので私には下記の方法のみ B1(円)とA(ドル)との回帰式から、B1を代入しAの値に換算する B2(元)とA(ドル)との回忌式に、B2の値を代入してAの値換算する 換算したB1とB2の回帰式を求めれば、これがB1とB2の関係式になります。 すなわち、Aを仲介して、B1(円)-A(ドル)-B2(元)の関係からAを外せば、B1とB2の関係が回帰式として表せます。 ただそれぞれの回帰式の決定係数(r^2)が、0.6は欲しい。これが小さいと、回帰式の信頼性が薄れて、誤差が大きくなります。 それでも問題が残ります。B1とB2が重なっている領域は、それぞれの回帰式でB1では低い人、B2では高い人であり、回帰式は中心から離れた領域では信頼性が激減します。 重なった領域が無い直線を繋ぎ合わせて使っていますので、直線のハズが繋いだ点で曲がってしまっているのが誤差の原因かもしれません。
補足
kgu-2様、ご返信ありがとうございます。 >Aを仲介して、B1(円)-A(ドル)-B2(元)の関係 この方法に関しては、合っているようです。 しかし、 >Aを外せば、B1とB2の関係が回帰式として表せます。 この部分は、知識不足のためどうやったら良いのかわからないのです。 excelを用いて決定係数R2を調べるとB1、B2ともに0.8でした。 ここで、仮にB1とB2が全く同じ試験内容であった場合のデータも存在しますので、そのデータでも分析してみました。 B1とB2の試験内容が同じ(受験しているレベルの層はB1>B2)で、B1とB2両方を受験はできないとします。300点満点の試験です。 【結果】 B1、B2ともに決定係数R2は、0.8でした。 B1切片係数:32.1729116315614 B1X値係数:0.546605341463663 B2切片係数:10.9904071287823 B2X値係数:0.672136632625494 手段は、B1集団のSSとB1を受験した生徒がAを受験したときのSSから切片傾きを求めています。B2も同様です。 予測では、同じ試験内容を受験した得点データなのだから、 B1集団をAに換算した平均SSの得点と B2集団をAに換算した平均SSの得点はほぼ一致するのかと考えました。 しかし、誤差というには差が大きく、平均SSでの得点差は11(300満点で)もありました。 やはり、 >Aを外せば、B1とB2の関係が回帰式として表せます。 の部分が重要なのでしょうか。 そもそも要素が足りてないのでしょうか。 答えが、「一致する」する方向で分析するべきなのか 「一致しない」方向で分析するべきなのかもわからなくなっています。 申し訳ございませんが、進むべき方向を正して頂けないでしょうか。 お手数をおかけしましてすいません。
- kgu-2
- ベストアンサー率49% (787/1592)
事実を長々と述べられていますが、混乱の元。回帰分析用に整理されていないからです。枝葉は、切り取って、どの情報が必要か、どのように処理すればよいか、と考えてください。目的を正確にとらえれば、正答に辿りつくのは容易です。わざわざ難しくして、道に迷う必要はありません。 整理すると BはB1とB2の2種類あり、Aは1種類。B1とB2の関係式を知りたい、ということで合っていますか。これは、B(B1かB2)とAを受けた人が十分な人数いれば、関係式(=回帰式)は簡単に導けます。 最も簡単なのは、B1とB2の両方を受けた人が必要数あること。ないのなら、基本的な統計学的な誤りです。 また、研究のためですか、仕事ですが、まさか趣味。
お礼
ご返信ありがとうございます。 仕事の都合で必要になってしまったといった感じです。。。 ご教授いただければ幸いです。 人数に関してですが、 A:10万人 B1(難):3千人 B2(易):2千人 です。 Bを受験した生徒のほとんどがAを受験したと仮定します。 Aを基にB1を換算した結果と、Aを基にB2を換算した結果の関係が 異なる理由を突き止めたいのです。 B1とB2はどちらかしか受験できない選択式の問題です。 ご指摘の「B1とB2の両方を受けた」という部分を、 「B1とB2の生徒が両方受けたA」から求められればと考えました。 それにより、異なる試験もあたかも同じ試験を受けたように換算された SSが求められるのではないかと。 どのように求めるのが正しいのでしょうか。 そもそも情報が足りてないのでしょうか。 よろしくお願いいたします。
お礼
ご回答ありがとうございます。 >300点満点で11点なら、4%未満。大したことは無い、とも言えますが。 よく考えてみれば、このぐらいの誤差は最小二乗法を使用している限り仕方が無いことなのかもしれません。散布図でも見てみましたが、B1とB2では分布する位置が違えど一次関数の通る線はほぼ同じラインを描いています。 もう少し、よく考えてみたいと思います。 kgu-2様のご返信で、分析する方向性を見つけれたと思います。 (また、悩んでしまいご協力をお願いすることがると思いますが、) いろいろありがとうございました。