- ベストアンサー
多重比較について
統計初心者です。必要に迫られ何とか計算したいと思っています。 ある要因の影響をそれぞれの群(3から5群)の平均値で検定したいと思います (時間経過で追っていきたいと思っています) 項目によって、等分散のものもあれば、否定されたものもありました。n数も違います。 どのような方法が適切なのか、またその計算方法はどのようなものなのかおしえていただき たいです。よろしくお願いします。
- みんなの回答 (7)
- 専門家の回答
質問者が選んだベストアンサー
>回帰分析で多重比較というのが・・・ ここの意味が分かりにくいのですが。。 3本以上の回帰直線の検定は出来るのですか? まとめて分散分析出来るのか,ということです。 もし,やり方がわからなければ,回帰分析の専門書を読んだほうが良いでしょう。 計算が面倒なためか,計算過程まで示したサイトは無いようですが。。。 それが分かれば,実際計算して,5群間全体に有意差があるかどうか検定します。 有意差があれば,どの対比較(どの2群)に有意差があるか検定します。 これは,あなたが回答No2の補足に書いた, >前に3群の比較をした時は2群間のt検定をそれぞれ行いました。でも、群数が多いときにそれが適切ではないとのことだったので、多重比較というのを調べ始めました。 と全く同じ問題です。 回帰2本ずつ(つまり,1対ずつ)単純に検定結果を出すだけでは駄目,ということです。 これが,なぜ駄目かと言うと,検定結果が甘く出てしまうからです。 例えば,0.05水準で検定したつもりが,実は,0.1とか0.2に相当する結果が出ている,ということです。 逆に言えば,平均の検定でも,回帰の検定でも,単純2群比較で高度に有意(例えば,0.001)なら,多重比較でも有意差が出る,ということになります。 多重検定として,Bonferroni法やHolm法を使えば,平均の検定でも,回帰の検定でも,全く同じです。 このあたりは理解してますか? 単にp値を出して,比較の回数で割っているだけですから,平均でも回帰でもp値さえ出せれば,あとは同じ計算するだけです。 このあたりを理解してなければ,まず,多重検定自体から学んだ方が良さそうですが。。。 もちろん他の方法もあります。 私自身がホタルの発光周期の地域差を検定するとき,Tukey検定を使い,論文にしましたが,これは,回帰分析用に標準誤差を計算する必要があり面倒かも。。 Zar JH. 著 Biostatistical Analysis に,その他の多重比較も含め解説があります。 2群以上の回帰分析のフリーソフトとしては,smatr があります(英語です)。 http://www.bio.mq.edu.au/ecology/SMATR/ このサイトの冒頭の図にあるとおり,複数の群の傾向の違いを検定するソフトです。 左上に,download と user's guide から,ソフトと使い方(英文)がダウンロードできます。 研究者向けなので,もしかすると分かりにくいかも。しかし,途中の計算式なんか関係ない(知らん?),という人向けとも言えます。私としても,統計上の検定は,必ずしも皆が計算式を知らなくても良い,という立場です(研究者としては怒られそうですが)。 適用上の前提や注意点さえ気をつけていれば,この万人がコンピュータ利用できる時代に,理論的なことにこだわるのは時間の無駄,と考えているからです。 smatr の日本語の解説としては,山梨県森林総合研究所の飯島勇人氏のページがあります。 http://www7.atwiki.jp/hayatoiijima/pages/23.html#id_981809b4 このページにも,Bonferroni法やHolm法 で比較すれば良いことが書いてあります。
その他の回答 (6)
- 井口 豊(@Iguchi_Y)
- ベストアンサー率68% (157/228)
質問や補足を読み返して,気になったのですが,そもそもなぜ,初期値(前値)が異なるのでしょうか? サンプル数も多いようですから,ランダムに群分けしてあれば,初期に有意な差は出ないはずです。 初期値に群差があるかどうか検定してみましたか? 有意差が無ければ,多少初期値が異なっても,1にそろえる必要はありません。そのままのデータで,日数ごとに,群の多重比較すれば良いでしょう。 もし,初期値に群差があるなら,なぜでしょうか?ランダムに群分け(割り当て)したのに,ランダムでないことを示しているなら,やり直すのが賢明です。 あるいは,やむを得ず,初期値に群差が出る場合もあるでしょう。 例えば,高齢者と若者の運動後の血圧の変化,という場合です。 これは,最初から血圧が異なって当然です。同じ平均だったら,そのほうが異常です。 この場合は,運動前後の血圧差を比較,検定すると良いでしょう。 あなたの方法だと,高齢者と若者の初期血圧を1とし,運動後を0.8とか,0.9と表すことになります。 しかし,それは,比を調べることであり,血圧が何%低下したか,という比較になります。 通常,血圧は,何%低下したか,という比が問題ではなく,実測値でどのくらい低下したかが問題となります。そのような場合は,差を比較すれば良いでしょう。 あなたの問題で,なぜ比を使わねばならぬのか不明ですが,前回測定との差(例えば,初期値と15日の測定値との差,30日の測定値と15日の測定値との差,など)を検定する方法も考えられます。 ANo3で,初期値に影響される結果について述べましたが,上述のように,初期値が異なって当然という場合で,なお何らかの影響(上記では,運動の影響)を調べようとするなら,差を考えると良いでしょう。
補足
本当にお付き合いいただきありがとうございます 自分でもいったい何が目的なのか分からなくなってきていました でも、傾きをひかくすればよいということが理解できました 回帰直線も計算しました。回帰分析で多重比較というのが・・・ ネットで見て何とか式を探して計算してみたのですが・・ 検定方法とか参照できるサイトとかあれば教えていただけますか ここまでもお時間割いていただいているのにすみませんがよろしくお願いします
- 井口 豊(@Iguchi_Y)
- ベストアンサー率68% (157/228)
>適していないということでしょうか 不可能,という訳ではありません。 しかし,言葉のあや,かもしれませんが,どうも無理があるような気もします・・・ 例えば,日数xとして,AとBを比較して x:1 → 2 A:1 → 5 B : 2 → 30 となったとき,AとBの傾向は同じですが,差は,あとの方が出ています。 これは,例えば,群ごと回帰分析で傾きの検定をすれば,傾向(上向き,下向き,変化無し)の検定が出来ます。また,その傾向に群差があるかどうかも検定が出来ます。 また,その回帰式の線両側(上下)の95%信頼区間を調べれば,例えば,複数日調べたとき,どの日に,群差が出てきたか分かります。 なぜ,そういう分析をしないのか不思議です。 例えば,次のような問題を考えてください。 体重を測定したとします。 1日で5kg減った場合,と,50年で5kg減った場合を考えてみてください。 どちらも測定の5kg差に違いありません。その差の検定も可能です。 しかし,その減り方は明らかに違います。単に前後の平均を比較しても,その減り方の違いは検定できません。 そもそも,単に平均値の差を検定するだけなら,15日とか30日という日数データは,どこに織り込まれるのですか?検定に日数データを取り入れないなら,グラフにせず,言葉にすれば十分です。単に,異なる日の標本を比べた,に過ぎないからです。 >有意差が認められたので、その低下の大小について検定 低下の大小とは,まさに,傾きの差,ではありませんか? あなたの場合は違うと思いますが,例えば,集団の平均値の差の検定をして,有意確率が小さいほど,差が増大(あるいは減少)と考える人がいますが,それは間違いです。上述のように,この検定は,変化の大きさを検定してないからです。 例えば,最初にあなたが補足した例 G1 G2 G3 前 1 1 1 1W 0.9 0.6 0.7 2W 0.8 0.5 0.7 回帰分析で多重比較すれば,どれが,どれに比べて有意に低下しているか分かります。 もちろん,前値を1とする必要は全くありません。 もちろん初期値(前値)が等しければ,1W,2Wで,それぞれ群間の平均値の多重比較をすれば良いでしょう。 そして,これがベストの方法でしょう。 ところが,あなたも認めるように,初期値(前値)が異なるのですね? そもそも,単純に平均の差を比較できない発端は,ここにあるのです。
- 井口 豊(@Iguchi_Y)
- ベストアンサー率68% (157/228)
>n数は150から250位 サンプル数は問題ないですね。 >前値にも開きがあるのは確かですし、おっしゃる通り前値によって影響の受け方が違うのもわかります。 と,あっさり認められると,前回述べたように,比較できない,という結論に達してしまうのですが。。。 これは,同一条件下で比較する,という実験や観察の出発点(前提)なのですから,それが崩れてしまうと,結論は,客観性が無く,自分の独りよがりとなってしまいます。 その問題は,別として, >影響を与えた事象の大きさが大きいグループで顕著だということがわかりました。そのグループ間の差に有意差があるのか検定したい ならば,前回述べたように,グループごとに,回帰分析(直線回帰)を行い,その傾きの差を検定したら良いのでは? >前値とそれぞれの日数のところで,有意差検定をしました。 これは,回帰分析ではありませんし,グラフを書く意味がありません。 データに回帰式を適合させ,そのパラメータを比較するのです。 x を日数,yを測定値 y = ax + b y = cx + d y = ex + f . . のように群ごとに回帰式を求め,その傾きの差を検定するのです。 多重比較検定すれば,どの傾きと,どの傾きの間に有意差があるか分かります。 これは,各グループの傾向分析に相当します。
補足
前値とそれぞれの日数のところで,有意差検定をしました。 これは,回帰分析ではありませんし,グラフを書く意味がありません。 例えば15日後低下したデータが30日後には回復傾向にある とした場合に前値と15日目のデータの平均値の有意差検定をして、有意差があると いうのは適していないということでしょうか 上記の計算をして有意差が認められたので、その低下の大小について検定できないかと 思って質問しました。これ自体統計学的にまちがっているのですか?
- 井口 豊(@Iguchi_Y)
- ベストアンサー率68% (157/228)
>前値の平均値と1W,2W,3W・・・の平均値を比較し 1W,2W,3W・・・が時間軸に沿った測定値ということでしょうか? >検査値そのものだと前値に差があるため、前値を1として これは妥当な変換なのですか? 出発点の違いが,その後の結果に影響を与えるなら,この「前値を1として」は正しくありません。 例えば,お礼に書かれていた例で,G1が低下しないのは,もともと前値から低かった,ということだってあるのです。 例えば,最高血圧100の人と200の人が運動をして,100の人は全く変化なく,200の人は50下がって150になった,という例だってあるでしょう。これは,初期値に影響される例です。 前値に差があるため、前値を1,と単純にできません。 もし,1W,2W,3W・・・が時間軸に沿った測定値なら,それをX軸に取り,検査値をy軸に取り,回帰分析をすれば良いでしょう。 直線または曲線の傾きなど変化のようすを見れば(できれば,検定すれば),何も前値を1とする必要がありません。 また,複数の検査値の影響を同時に見るのなら,多重回帰分析をすれば,よいでしょう。
補足
確かに、前値を1とするのがよいのかは自分自身でも悩んだところです。 最初、グループ分けせずにx軸に日数、y軸に値をとり変化をみて、前値とそれぞれの日数のところで 有意差検定をしました。その後、すべてのグループで同じ傾向なのかを見たいと思いグループごとに同様のことをしました。傾向は同じなのですが、影響を与えた事象の大きさが大きいグループで顕著だということがわかりました。そのグループ間の差に有意差があるのか検定したいと思ったのです。 グループ内のn数は150から250位で前値にも開きがあるのは確かですし、おっしゃる通り前値によって影響の受け方が違うのもわかります。ただ、グループ間での比較がよりわかりやすいのではないかと思ったのですが・・・グラフとしては実測値でも示したいと思っています。 多重回帰分析は、様々な要因が与える影響を見るのに適しているもので、今回自分の求めたいものとは 違うように思っていました。
- kgu-2
- ベストアンサー率49% (787/1592)
初心者が多重比較をするのは、免許の無いものが、F1を運転したい、というようなもの。 危なくて。 必要に迫られ、は自由意志ですか。それとも、誰かに強制された? 2群のt検定は、得意ですか。 それに、5群というのは、濃度とか、時間が違うのですか。
補足
決して、強制されたわけではないのですが、データをまとめるにあたり必要性があるということでして。 統計がもともとよくわからないので、2群のt検定も得意ではありませんが、これも必要のある時に頑張って何とか結論を出しているという状況です。 5群は対象者が異なるグループです。前に3群の比較をした時は2群間のt検定をそれぞれ行いました。でも、群数が多いときにそれが適切ではないとのことだったので、多重比較というのを調べ始めました。確かに、基礎のないものがいきなり、難しい応用編に飛んでしまったというのは自覚しておりますが、よろしくお願いします。
- 井口 豊(@Iguchi_Y)
- ベストアンサー率68% (157/228)
説明が,非常に抽象的で,分かりにくい,というのが本音です。 例えば, >平均値で検定したいと思います >(時間経過で追っていきたいと思っています) という説明は,どのように関連するのでしょうか? また, >項目によって と,いきなり,項目という語が出ますが,いくつの項目を,どのように計測してるのでしょうか? 連続量?不連続量(例えば,整数スコア)? もっと具体的に,例えば,いくつのデータ(あるいは項目?)からなるA,B,C...の群で,(時間ごと?)連続データを取り, のように,調べたことを,順を追って述べないと,誰も適切にアドバイスできないような気がするのですが。。
補足
すみません。統計そのものをよく知らないということがよくわかりました。 対象者が異なるグループが5つあります。 グループの人数は等しくありません。 データはたとえば血糖値とか体重とかというような生体の検査値です。 ある出来事が対象者の検査値に影響を及ぼしたと仮定し、それぞれのグループ内で 前値の平均値と1W,2W,3W・・・の平均値を比較し有意差を認めました(等分散、t検定にて) そこで、次にグループ間での比較をしたいと思いました。 ただし、検査値そのものだと前値に差があるため、前値を1としてどの程度影響を受けたかを 示したいと思いました。前値を1として計算した値の平均値がグループ間で異なるという仮定をたてて 検定したいと思います。 と比較し有意差を認めました(1W、2W、3W・・・象者に与えた影響がそれぞれのグループで異なる という仮説を立てています 出来事が起こる前のデータが、それぞれのグループで異なることから 出来事が起こる前のデータを1としてその後のデータを計算しました。 G1 G2 G3 前 1 1 1 1W 0.9 0.6 0.7 2W 0.8 0.5 0.7 ・・・ 「2Wでは、グループ間でその平均値は等しくなく、2W後では、G2はG1と比較して有意に低下してい る」 もしくは、「差は認められなかった」というようなことを求めたいと思います。 何をどのように説明していいかもわからないのが、申し訳ないのですがよろしくお願いします
お礼
いろいろありがとうございます ゆっくりかみしめながら勉強してみます ここ数年統計から全く遠ざかっていたので、さび付いた頭ではなかなか理解できませんが。 もちろん、計算の理論まで自分でわかるようになるとは思っていませんが、間違った統計を用いて 結論を導くことがないようにしたいと思います。 今回の検討においては、結局必要になるかは分からなくなってきていますが、でもよい機会に なりました。お時間さいていただいてありがとうございました。いつも、遅い時間(早い?)時間 コメントいただいているので、少し心配になりました。あまり無理なさいませんように・・・ ありがとうございました。