• 締切済み

回帰 独立性

こんにちは。生物を学んでいるのですが、統計学が必要なので勉強し始めました。単回帰について、質問があります。 2変数xとyとのあいだのピアソン相関係数や決定係数を求める際、 たとえばy=x-zのようにyがx自体の関数として表せる場合、単純に求めた相関係数や決定係数は意味がありますか ? (ここでzはxの関数であるかもしれないし、そうでないかもしれなく、つまり、具体的な関数の形はわかっていないと考えてください) 友人に、zの具体的な関数の形はさておき、yはとにかくxの関数であり、xとyは独立ではないので、上記の統計はあまり意味がないと言われました。でもそれはおかしいと思ったのです。なぜなら、仮にaとbが独立だとして、回帰分析後に相互に相関があるとわかった場合、結局bはaに依存している(あるいはその逆)という結論が導きだされ、それはaとbは独立でなかったことを意味し、よってその統計に意味がなかったとされ、aとbを比べるということ(すなわち回帰分析自体)が意味がないということになってしまいます。 つまり、独立かどうかの判断が、統計を行う前になされるか後になされるかの問題にすぎず、aとbとの間の相関を見つけるために回帰分析をしたい人にとっては、永久に相関を見つけることができないということになります(なぜなら相関を見つけるということは、aとbが独立でなかったことを示す事他ならないからです) よろしくおねがいします。

みんなの回答

回答No.5

>設定するのではありません。要点としては、zが何者かわからないというだけの話です。わかっていることは、yは(生物学的な知見から)xに依存している疑いがあるということだけです。 zが何者かわからないんだったらzに対しての回帰式を設定しないでしょう。 もう一度言います。「回帰式」は「条件付モデル」です。「何者か分からない」ものはそもそも回帰式に組み込みませんし、回帰式が「何者か分からないモノの存在」を教えてくれることはあり得ません。 従って、 >yは(生物学的な知見から)xに依存している疑いがあるということだけです。 と言うのならyとxだけの回帰式を設定してみる、と言うのが常套手段です。 >たとえば相関はあるかないかは言い切れない、すなわち統計では「相関があるらしい」とか「相関がないらしい」とか言えないと言われていましたね。だから、「関連がある」、「ない」と言い切ろうとする例は、前回のご回答と矛盾して聞こえるのですが。 当り前です。何故ならそれは「統計学の文脈」ではないからです。 >yとxの回帰分析で決定係数が0.8と計算されたとします。これはyの80%の分散はxで説明されることを意味すると本にあります。 そんなこと書いてありますか?あくまで「直線回帰へのデータの当てはめ度」ではありませんか? もしよろしかったらその本を御紹介して下さい。調べてみます。 >どれぐらいの確率で関係があるらしい そう言う解釈は少なくとも標本理論では行いません。決定係数は確率と(数学的な意味ではありませんが)同義ではないです。 >最初からそういう質問ですが。。。 最初は >友人に、zの具体的な関数の形はさておき、yはとにかくxの関数であり、xとyは独立ではないので、上記の統計はあまり意味がないと言われました。 です。友人の主張は「従属じゃないと回帰分析の意味がない」です。友人がおっしゃっていたのは「始めからyがxの関数であるのが分かってるのだったら回帰分析をする必要がない(単に当り前だから)」と言う事で、独立でないのだったら~とは言ってませんね。 途中で主張がすり変わっていると思いますよ。どこが友人の主張でどこが貴方の主張なのか読み手には分からなくなっていますね。 >バイナリーという意味でつかっているのでしょうか? その解釈でよろしいです。 (ただし、他に読んでる人もいるでしょうから、バイナリーと言う"専門用語"は避けました。)

takinski
質問者

補足

>zが何者かわからないんだったらzに対しての回帰式を設定しないでしょう。 zに対して回帰式なんか設定していませんよ。一度もそんなこと言っていませんって(笑)。あくまでyとxです。  >そう言う解釈は少なくとも標本理論では行いません。決定係数は確率と(数学的な意味ではありませんが)同義ではないです。 もちろん、違います。しかし現実と組み合わせて、解析者側ではそういう解釈がもっとも近いのです。統計がいくら数値をはじき出したって、解釈なくしては意味がないでしょう?  >友人の主張は「従属じゃないと回帰分析の意味がない」です。友人がおっしゃっていたのは「始めからyがxの関数であるのが分かってるのだったら回帰分析をする必要がない(単に当り前だから)」と言う事で、独立でないのだったら~とは言ってませんね。 このあたりから完全に話が循環していますが、yがxに依存している疑いがあるのでけれど、どのように依存しているのかということを調べたい時だってあるのです。(前にも書きましたが。。。) とにかく、それは話のポイントからずれているのでどうでもいいですが、たとえば、回帰の結果、傾きと切片が計算された場合、その傾きの数値が生物学的に重要な意味を持っている時があるのです。いいかえれば、傾きが数値で1だった時と2だったときでは、解釈は同じではないのです。たとえば、Yがある生物量、Xが鉄分の濃度としましょう。たとえば、回帰の結果がある温度t1でy=xだとしましょう(たとえばのはなしですよ、単位などは無視してくださいね)。この場合、生物に鉄を1あたえれば、生物量は1なわけです。温度t2ではy=0.5xだったとしましょう。そうすると同じ生物量をえるのに温度t2では温度t1の時と比べ、倍の鉄量がいるわけです。これは生物学的に重要であることがあるのです。なぜなら、温度で生物の代謝が異なることを示しているからです。この例のように、yがxにどのように依存しているのかが重要なことがあるのです。この例では切片0としましたが、当然切片が0でない時だってあるのです。そして、温度が違うときにその切片の値が違う時だってあるのです。さらに、その切片の値が、実は実験時の鉄濃度に依存しているときだってあるのです(そしてその理由がわからない時だってあるのです)。 >その解釈でよろしいです。 (ただし、他に読んでる人もいるでしょうから、バイナリーと言う"専門用語"は避けました。 いやあ、デジタルとバイナリーって意味が全く違いますよ(笑)。私が日本人で、さらに、議論の当事者だったから、あなたの間違いの推測ができたものの、私の友人たち(英国人)聞いたら、意味がさっぱりわからないでしょう。 私とあなたと二人の素人で議論しても、らちが明きそうにないので、統計の専門家に回答を依頼することにします。うちの学校(oxford)には専門家がたくさんいるので。でも、とくにかく、時間を割いてくれてありがとうございました。

すると、全ての回答が全文表示されます。
回答No.4

>zが係数ならだれが見てもそれは明らかですが、質問にも書いたようにzがxの関数の場合をも考慮して質問しました。 これはずるい言い方をすれば「zがxの関数になるような回帰式の設定の仕方をするのは原則的に避けなければならない」と言うのが一つの答えです。 >現実には、どれほど、そしてどのように関連があるかというのが大事になってくることがあります(というか、工学や生物学や実務において統計を用いる時は、そういう場合の方が多いのでは?)。 ああ、このあたりが多分勘違いの原因でしょう。 まず、「関連がある/ない」と言うのは厳密に言うと「定量的には計れません」。何故なら、関連がある/ない、と言うのは「二つに一つ」だからです。ちょっと考えてみてください。「どれほど」ってのは無意味な問なんです。 例えばtakinskiさんが彼女がいたとして、「定量的な関係」とは何ですか? 「僕と彼女の関連度は0.3です」とか(笑)。他にも、「僕と両親は0.7くらい関連している」とか(笑)。ちょっとおかしいですよね(笑)。「関連してる/してない」ってのは0か1か、なんですよ、原則的には。関連してるなら関連している、関連してないのなら全く関連してない、のです。 と言う事で、多分「決定係数が持つ意味」と言うのと「回帰で得られる係数=影響度」をごちゃ混ぜにしてるのではないでしょうか? 「決定係数」と言うのは上記の通り、「定量的な関係」を定義出来ないモノに対して無理矢理「定量的な関係」を示唆してくれそうな「指標」を導入してみただけのモノ、と言う言い方が出来ます。そして、前述の通り、実際は「いくら以上の数値だったら」関係が言える、と言うような類のモノではないのです。場合によっては0.5以上が妥当であるとか、0.7以上が妥当であるとか、やっぱり0.9以上なきゃダメだろ、とか色々な意見がありますが、「別に数学的にこういう基準じゃないとならない」ってわけではありません。 そして、「どのように」は統計学的な文脈では答えられないでしょう。これは例えば「生物」なら「生物」での結論を出すべきなんじゃないですか?「データを統計的に分析したらこうでした→だから生物はその結論を受け入れます」ではおかしいでしょう。データを取って、統計にかけても「最後に"どのように"に対しての結論」を出すのは生物学の仕事だと思います。統計はあくまで「道具にしか」過ぎません。 >独立していると前もって知っているのなら、統計の意味がないでしょう。 意味は無いですね。どうして「独立している」と言う仮定の元で回帰分析にかける必要があるのか?無いですね。 あくまで「関連があると疑う」から初めて回帰の文脈に持ち込んでみようと言うモティベーションが得られるのです。 >私の友人の言うように、xとyとが独立していなければ回帰分析の意味がない あら。そんなこと言ってたんですか? 「xとyとが独立だったら回帰分析の意味がない」んだったら正解ですが、それじゃあ逆ですね。 しかもそれは最初の質問と食い違っていると思います。 まあ、いずれにせよ、最初のポイントは「相関係数」とか「決定係数」の定量的な数値に惑わされない事です。「関連」自体は原理的にはデジタルです。それが事実だと言うことをお忘れなく。

takinski
質問者

補足

再度、ご返答ありがとうございました。 >これはずるい言い方をすれば「zがxの関数になるような回帰式の設定の仕方をするのは原則的に避けなければならない」と言うのが一つの答えです。 設定するのではありません。要点としては、zが何者かわからないというだけの話です。わかっていることは、yは(生物学的な知見から)xに依存している疑いがあるということだけです。 >ああ、このあたりが多分勘違いの原因でしょう。 まず、「関連がある/ない」と言うのは厳密に言うと「定量的には計れません」。何故なら、関連がある/ない、と言うのは「二つに一つ」だからです。ちょっと考えてみてください。「どれほど」ってのは無意味な問なんです。 前回のご返答のなかで、たとえば相関はあるかないかは言い切れない、すなわち統計では「相関があるらしい」とか「相関がないらしい」とか言えないと言われていましたね。だから、「関連がある」、「ない」と言い切ろうとする例は、前回のご回答と矛盾して聞こえるのですが。。。まあ、そんなことはどうでもいいとしても、どれくらい関連が「ありそう」なのか「なさそう」なのか。これを知ろうとするのは不可能ではないと思います。たとえば、yとxの回帰分析で決定係数が0.8と計算されたとします。これはyの80%の分散はxで説明されることを意味すると本にあります。これは両者が「どれくらい」関連がありそうなのかの指標に十分なり得ます。「どれくらい」関連がありそうなのかとは、そういうことです。挙げて頂いた例はおかしいように聞こえますが、たとえば、第三者が私と私の彼女との関係を判断したいときに、どれぐらいの確率で関係があるらしい、かを考えると「統計的」にはおかしくないと思います。ただ、前回私が言ったように、統計はあくまで数値から得られる経験でしかないので、現実を考えた場合、数値から得られた経験をどう解釈するかは、解析者の経験でもって判断するしかないでしょう。 >と言う事で、多分「決定係数が持つ意味」と言うのと「回帰で得られる係数=影響度」をごちゃ混ぜにしてるのではないでしょうか? 「決定係数」と言うのは上記の通り、「定量的な関係」を定義出来ないモノに対して無理矢理「定量的な関係」を示唆してくれそうな「指標」を導入してみただけのモノ、と言う言い方が出来ます。そして、前述の通り、実際は「いくら以上の数値だったら」関係が言える、と言うような類のモノではないのです。 そのとうりです。それでいいのです。なぜなら、上に言ったように、結局は解析者の経験でもって統計でえられた「数値上の経験的情報」を解釈しなければならないので、あくまで統計から得られた結果は、ひとつの情報にすぎないからです。だからこそ統計は単なる「道具」ですし、その道具をどのように使うかは、解析者次第ということになるのです。だれも統計で得られた数値がこうだったから、その数値がすべての問題に共通した重要性を持っていると考えていませんでしょう? 統計は、あくまで手元にあるデータから経験的に、できるだけ客観的に、「らしさ」を述べる手法にすぎないのですから。 >そして、「どのように」は統計学的な文脈では答えられないでしょう。これは例えば「生物」なら「生物」での結論を出すべきなんじゃないですか?「データを統計的に分析したらこうでした→だから生物はその結論を受け入れます」ではおかしいでしょう。 何か勘違いされているようですが。。。 はじめから、統計がすべてを解決してくれるなんて思ってもいません。偽相関がいい例です。あくまで情報のひとつです。でもその情報がとりあえずでもほしいので統計をするのです。 >意味は無いですね。どうして「独立している」と言う仮定の元で回帰分析にかける必要があるのか?無いですね。 あくまで「関連があると疑う」から初めて回帰の文脈に持ち込んでみようと言うモティベーションが得られるのです。 それは当然です。と私は思っていたのですが、友人はx、yが独立していなければ統計的には意味がないというのです。なぜなら、独立していないのであれば、結果は「関連がある」とでるに決まっている、というのが彼の主張です(上で議論したあなたのご意見、つまり関連があるかないかの2者択一の問題、と同じです) >あら。そんなこと言ってたんですか? 最初からそういう質問ですが。。。 >まあ、いずれにせよ、最初のポイントは「相関係数」とか「決定係数」の定量的な数値に惑わされない事です。「関連」自体は原理的にはデジタルです。それが事実だと言うことをお忘れなく。 すみません、意味がわかりません。。。 デジタルとはどういう意味でしょうか? もしかして、バイナリーという意味でつかっているのでしょうか?

すると、全ての回答が全文表示されます。
回答No.3

質問の意図が分かりづらい、ってのもありますねえ。 ちょっと見ていってみます。 >たとえばy=x-zのようにyがx自体の関数として表せる場合、単純に求めた相関係数や決定係数は意味がありますか ?  これは質問文そのままの意図とすれば計算上はありますし、それは「1」です。 前提として「yがx自体の関数として表せる」以上、それは初めっから「関数」なのが分かりきっているので当然関連性は保障されているわけです。 従って「計算ではなく意味で考えると」"統計"する必要性がありません。 統計的な意味での回帰は元々、"関数ではない"だろうものを"関数と見立てる"のが方法論なので、この辺りは文脈としては混乱してると思います。 友人の方が正解ですね。 >仮にaとbが独立だとして、回帰分析後に相互に相関があるとわかった場合 この辺りも相当混乱しています。まず、「aとbが独立だとして」とするのなら、まずは「回帰分析しよう」とは思いません(笑)。いや、冗談いってるんじゃないんですよ(笑)。 次に「相関があるとわか」る事はあり得ません(笑)。あくまで相関係数が示しているのは「相関がありそう」な事だけで、決定論的に「相関がある」とは永久に言えないのです。多分この辺り考え違いしてると思います。 大体、相関係数が「いくつ以上」だったら「相関がある」と言うおつもりでしょうか?そんな基準は統計学では存在しないのです。例え、0.0000000000000000000000000000000000000000000000000000000000000001、と言う数値が出ても「ありそう」な事は「ありそう」なんです。どこで「ある」と思って分析しだすかは、一つは慣習的なものですし、もう一つはtakinskiの「好みの」問題です。いや、これホントですよ(笑)。 統計学は「仮説だらけの」集合体だと思って間違いないです。元々「曖昧なモノ」を扱う学問なので、「ハッキリと言明できる」事なんて殆どない、と考えてまず間違いないです。いい加減なんですよ(笑)。 >独立かどうかの判断が、統計を行う前になされるか後になされるかの問題にすぎず これも「独立かどうかの判断」は永久に出来ません。「独立っぽいな」「そうじゃなさそうだな」っていう「非常に曖昧な」ものしか得られません。 >永久に相関を見つけることができない 元々出来ないんですよ(笑)。 一つ大事なのは、統計学と関わる場合、分析の前提として「何をしたいのか?」明確にしておく必要がある、と言う事です。逆にいうと、「全く関係がない2つの数値群」でさえ「回帰分析」は出来るのです。やろうと思えばいくらでも出来ます。しかしあらゆるモノに付いて「統計的計算がこうだったから相関はこうです」と言えるのか?ハッキリいうと「言えません」。過剰な期待を統計学に抱いてはいけません。 例えば「街中の風速」と「桶屋の売上高」と言う二つのデータがあったとして相関係数が0.98だったとします。では「風が吹けば桶屋が儲かる」と結論付けてよいのでしょうか?そうじゃなくって、「風が吹けば桶屋が儲かる」と言う仮説を検証したかったのではないか?統計学は「検証手段」としては有効ですが、「統計学でそう言う結論が出たからこれが真実だ」と言う論法は全く逆です。そうではなくって「風が吹けば桶屋が儲かる」と何故思いついたのか?の方が大事な筈でしょう。 何故なら、色々な「因果関係がありそうな」事柄はこの世の中に無数にあります。統計学が出来るのは、その中から人間が見つけ出した「因果関係の中の一つ」を検証する事だけなのです。それが「唯一絶対の真実である」とはいってませんし、それは出来ません。「条件付モデル」って事ですよね。そして数々の「条件付モデル」の中から「これが比較的マシなモデルだろうな」と言う事くらいしか言えないのです。 もう一度いいますが、「統計学的手法に過剰な期待をしてはいけません」。

takinski
質問者

補足

説明ありがとうございます。 >これは質問文そのままの意図とすれば計算上はありますし、それは「1」です。 zが係数ならだれが見てもそれは明らかですが、質問にも書いたようにzがxの関数の場合をも考慮して質問しました。 >前提として「yがx自体の関数として表せる」以上、それは初めっから「関数」なのが分かりきっているので当然関連性は保障されているわけです。従って「計算ではなく意味で考えると」"統計"する必要性がありません。 おっしゃるとうり、関連があるのはあきらかですが、現実には、どれほど、そしてどのように関連があるかというのが大事になってくることがあります(というか、工学や生物学や実務において統計を用いる時は、そういう場合の方が多いのでは?)。だからこそ定量的に分析したいわけで、統計を使いたいわけです。そういった場合でも、その統計は意味がないとおっしゃっているのでしょうか? >この辺りも相当混乱しています。まず、「aとbが独立だとして」とするのなら、まずは「回帰分析しよう」とは思いません(笑)。いや、冗談いってるんじゃないんですよ(笑)。 まったくそのとうりです! 独立していると前もって知っているのなら、統計の意味がないでしょう。だからこそ!!、私は質問しているのです。つまり、yがxの関数であるとわかっている場合でも(ただし、具体的にどのような関数の形かはわかっていませんが)統計を行って、なぜその統計が意味を持たなくなるのかが、私には理解できないということです。しかし上に述べたように、どのように、どれくらい関連があるかということを定量的に調べたい時だってあるのです。 >次に「相関があるとわか」る事はあり得ません(笑)。あくまで相関係数が示しているのは「相関がありそう」な事だけで、決定論的に「相関がある」とは永久に言えないのです この辺から質問のポイントからずれてきていますが、とにかく「相関がある」と断言しなくても「相関がありそうである」でも何でもかまいません。私のポイントは、もし、私の友人の言うように、xとyとが独立していなければ回帰分析の意味がないというのであれば、それは相関がありそうかありそうでないかを調べる回帰分析という代物自体に意味がないと言っているのと同じである、というのが私の主張なのです。 ここから先は戴いた余談への対応として余談させていただきます。統計学は、データを必要とすることから、「経験的手法」だというのは明らかで、経験的手法である以上、解析者の経験を踏まえたところで何の障害もないと私は理解しています。ただ、世の中では「定量的」にかつ「できるだけ客観的に」解析をしようというのが主流なのも事実ですが。桶屋と街中の風速の例を挙げていただきましたが、それを議論する際には、統計から得られた「数値上の経験」だけでなく、「現実」における「解析者の経験」を重ねることにより、「数値上の経験」に隠された落とし穴を埋めてゆくのも大事であると言うことは、私も理解しているつもりです。今までは、たかが回帰と(統計学を専攻したことのない者のくせに)思っていましたが、奥が深いことにはいまさらながら気がついています。

すると、全ての回答が全文表示されます。
  • Ishiwara
  • ベストアンサー率24% (462/1914)
回答No.2

y=x-z で、zが定数であれば、x:y の相関分析をする意味はありません。分析する前から相関係数は1であることが決まっています。

すると、全ての回答が全文表示されます。
  • backs
  • ベストアンサー率50% (410/818)
回答No.1

一言でいうなら、 http://www.kyoritsu-pub.co.jp/shinkan/shin0701_05.html を読めば問題は解決すると思いますよ。生物学を専門としているのであれば、なおさら読んだ方が良いと思います。

takinski
質問者

補足

貴方の言葉で説明するとどういう回答になりますでしょうか?

すると、全ての回答が全文表示されます。

関連するQ&A