- 締切済み
統計学なんですけど
統計学なんですけど、最近勉強をはじめた文系の人間です。 次のような記述研究をしたいのですが、データの分析方法がよく分かりません。 英語の先生が生徒の間違いに対してどのような指導をするか、と言うテーマで、ベテランの先生と新米先生の授業を比較するつもりです。あらかじめカテゴリーを6つ用意して、二人の先生の授業を観察しながら、そのカテゴリーにチェックを入れていきます。そしてそれぞれのカテゴリーごとの出現回数を求めます。 そこで、その結果を二人の先生で比較して、有意な差があるかどうかを見たいのですが、カイ二乗検定で良いのでしょうか?名義尺度なのでノンパラメトリック検定を使う、と本で読んだので。 ぜひ、教えていただきたいので、よろしくお願いします。
- みんなの回答 (2)
- 専門家の回答
みんなの回答
私も少し…。テーマに関してはstomachmanさんが詳細に述べていますので、 使い方の面を。 χ2乗検定が使えるどうかは「出現回数」の捉え方によります。 1回と2回の差が2回と3回の差と等しいと考えられるならば、 尺度水準は間隔水準以上になりますのでχ2乗検定が使えます。 只そのとき判るのは、その2人の先生に対してのカテゴリーの差が 有意かどうかが判るだけなので、テーマにどの様に利用できるかは ちょっと思い付きません。 只、モンゴロイドとコーカソイドはパラメータを増やしすぎると 分類できなくなるそうです。盲滅法に変数を増やすのではなく、 自分のテーマに何が必要かを考えて適切な項目を吟味してみるのが よいと私も思います。 偉そうなことを書きました。参考になればと思います。
- stomachman
- ベストアンサー率57% (1014/1775)
僭越ながら、統計処理技法の問題以前に、何を測ろうとしているのか、その目的に於いて実験のデザインが適切か、そのへん再考なさってみるのも宜しいかと思います。 以下では「生徒の間違いに対してどのような指導をするか」ということが問いである、という前提としますが、 これ自体も再検討の余地があるかも。生徒の間違いに対して行う指導を「どのような指導」かで分類し、分類項目の発生頻度と「ベテランと新米」の違いとの相関を見ようということですから、「ベテランと新米では、生徒の間違いに対して、指導の行動が違うか」と言う意味だと解釈できます。しかし… ベテランと新米の二人と仰いますが、この二人の違いはそれだけではない。だから例えば授業回数と行動との相関を、多数の教師の観察結果から証明しなくちゃ「ベテランと新米」という区分に意味があるとは言えません。言い換えれば観察対象がたった二人じゃ、ベテランも新米もなく、この場合には教師Aと教師Bの行動の違いを調べているに過ぎないのであって、その違いが何に(経験年数?準備に掛けた時間?語学力?性別?国籍?出身地?宗教?支持政党?声の大きさ?背の高さ?血糖値?体力?)由来するかについては何も言えない。言っちゃいけません。二人のデータから「だから新米にはこういう傾向があり…」なんて結論するのは、「だから自民党員は…」なんて結論するのと同様の、「統計の嘘」の典型です。 一歩間違えば似非科学に陥りかねない。そういう危ないテーマにニアミスしていること、認識していらっしゃれば良いのですが。 さて、次は実験デザインの話です。 生徒が間違える頻度、これがそもそも先生によってカナリ違うと思われます。そうすると、事象の母集団がそもそも共通でない可能性が大きい。同じ事態に二人の教師がどう対処するか、を比較しているのではない。 ここを無視して行動のカテゴリーにばかり注目すると、解釈不能になる。或いは因果関係を転倒して捉えてしまうという誤りに容易に陥りそうです。 生徒の間違いが発生する頻度を決める要因をざっと考えてみても、 (1)生徒がどの位分かってないか、 (2)生徒にどの位発表機会があるか、 (3)分かってない生徒と分かってる生徒のどちらに発表機会があるか。 さらにこの間違いに対して指導を行う頻度を決める要因としては、 (4)教師がどの位の頻度で間違いに気付くか、 (5)その間違いに対して、教師がどの位の頻度で反応するか、 などなどがすぐ思いつきます。 例えば(2)については、間違えさせる事を通して教える教授法を採るか、よく解説してから演習させる教授法かによって全然違うでしょう。(この意味で「英語」は適切な選択かどうか微妙です。)また(3)については、全体を底上げしようと考えている教師なのか、できる子中心で気持ちよく授業を進めたいのかでは、きっと全然違ってくるでしょう。つまり、同じ学級を対象にして((1)は共通)観察を行っても、発生する間違いの中身と頻度が教師によって全く違うということは容易に予想されます。 純粋に「生徒の間違いに対してどのような指導をするか」という観点に立つためには、((5)は指導の一種と考えることにしても)少なくとも(1)~(4)までの条件はコントロールしておかなくちゃいけない。この場合、(2)以降の要因はすべて教師の教授法の影響下にあるわけですから、単に多数の教師のデータを取っても均質化できないでしょう。まして僅か二人の教師を観察するのであれば ・授業中の発表回数を同じにし、しかも ・生徒に均等に発表機会を与える(乱数表をきちんと使って発表者を選ぶのが理想的ですが)、 ・教師が生徒の間違いに気付いたら(反応するしないにかかわらず)カウントして貰う、 というような制約を課すのでないと、複雑な現象のうちのどうでもいい一部分を観察していることになりかねません。 さらにカテゴリーの問題があります。6つの項目についてYes, Noを記録して、6次元の2値データを採るということだと思います。でもこの実験では観察と判定はヒトが行うんですから、カテゴリーの定義が適切かどうかが重要です。 カテゴリーをどう定めるか。つまり、観察者の主観が入りにくい具体的で明確な観察ポイントを使って定義できるか、これは何度か予備実験を行って慎重に検討すべき問題です。何人もの観察者が観察して、観察者によって分類がばらつく事象を詳しく調べる必要があるでしょう。 次に、二つのカテゴリーの間に相関が認められたとして、行動の特徴としての相関なのか、カテゴリーの設定に内在する相関なのかは、僅かな教師を観察したのでは区別できません。つまり、カテゴリー同士がどのぐらいカブッているか、ということが、結果を解釈をする段階では重要です。例えば 「ニヤリと笑って間違いを指摘したか」Yes/No 「ニンマリ笑って間違いを指摘したか」Yes/No なんてカテゴリーがあったとすると、試行を何度も繰り返せば両者は相関が大きくなるでしょ?比較的独立な特徴でなくては情報が少ない。 そうしますと、一回の指導の仕方を6つもの次元で綺麗に分類できるなんて、ホンマカイナ、と思えます。 最後に統計処理技術の話。最も簡単なのは、カテゴリー間の関係は考えずに、それぞれのカテゴリーごとにYes/Noの頻度を比べることです。H:「教師AとBとは、あるカテゴリーXについてYesの行動を取る確率は同じである」という帰無仮説を立てて、検定します。Hが棄却できれば「Hの否定」が言え、棄却できなければ何も言えない。それだけです。(統計の結論としてはそこで沈黙しなくてはならない。その先に続けて「だから…」と解釈を積み重ねることは、この実験では担保されない論述・考察に過ぎません。) カテゴリー間の相互相関を調べると、カテゴリー同士の関係が見えてきます。二つのカテゴリーP,Qが同時にYesになる確率を調べ、「PとQは独立である」という帰無仮説を検定する訳ですね。P,Qは一緒にYesになる確率が高いことが言えたとしても、(既に述べたように)これがカテゴリーの類似性に起因するのか、教師の行動の特徴なのかは、高々二人を観察した位じゃまだ何も言えないでしょう。 なお、もし沢山の教師を観察して多変量解析を行えば、このあたりの関係を明確にできるかもしれません。また、教師の授業経験時間数も一緒に調べたとすると、行動から経験時間数を推定する実験式を構成する問題は数量化理論I類に該当します。でもこの実験式を、経験時間数から行動の発生頻度を予想するのに使ったら間違い。これをやりたかったら、行動の発生頻度を目的変数とする数量化理論III類の解析を行います。
お礼
なるほど。脱帽してしまいます。 たしかにこの実験と言うか記述研究は非常に詰めが甘いものでした。この結論に関して一般化するつもりはありませんが、それでもかなり統計的に危ういもであるとわかりました。実験そのものを再考したいとおもいます 実験で使用するカテゴリーは先行研究に基づいたものを用いる予定でしたが、ご指摘をいただいたようにさらに綿密な予備調査を行う事にします。観察自体は複数の観察者を置ければよいのですが、予算やスタッフの関係上それが出来ません。その分さらに綿密な予備調査を行う事にします。 ありがとうございました。
お礼
とりあえずカイ二乗検定がつかえるとわかっただけでも、うれしかったです。たしかにカテゴリーのどこに有意差があるかが分からないのは問題だと思いますが、現在の僕の乏しい知識ではそれしか思いつきましんでした。 アドバイスありがとうございます。