- 締切済み
影響の大きさを示す統計分析方法について
スペースお借りします! 現在施設配置に関する統計調査をしており、配置が何に影響を受けているか計算式で示そうと考えています。 施設中心のボロノイ図を書き、エリアに含まれる全人数と15歳以下の人数を計測しました。 現在手元には1分割あたり(1施設あたり)がカバーしている人数・15歳以下の人数・エリア面積のデータがある状態です。 ここから、全人口と15歳以下の人口どちらが施設の配置に影響を与えているか推測したいのですが、 何かよい方法はないかアドバイスいただけませんでしょうか? 単純に考えれば、1施設毎に分割しているので分割に含まれる人口にばらつきが小さければ小さい程 影響を与えていると言えるのかな?とも思っているのですが、 片方は全人口・もう片方は年齢を区切った人口のためばらつきも桁違いになってしまい、 比較しようがない状態です… 統計に関して不勉強のため、既におかしな事をしているかもしれないのですが、 なんでもアドバイス等頂けますと幸いです。 よろしくおねがいいたします。
- みんなの回答 (1)
- 専門家の回答
みんなの回答
- stomachman
- ベストアンサー率57% (1014/1775)
「現時点でのコドモの数によって施設の配置が決まっている」という発想自体、もしかすると危ういんじゃないだろうか。というのは、もしかすると「過去のコドモの数」によって決まったのかも知れないでしょ。施設が安価に簡単に設置できるものなのかどうか。そうでない場合、ほかの目的に容易に転用可能なものかどうか、寿命が何年ぐらいか、築後何年経過しているか、などは考慮されているのだろうか。 施設の性格によっては(たとえばイナカの小学校を考えると)、時間的ボロノイ図(空間的距離ではなく、移動時間を尺度として地域を分割したもの)における半径(最寄りの施設に徒歩などの手段で到達するのに掛かる時間の最大値)があまり大きくならないように施設を設置することも考えられます。この場合、義務教育の平等性を担保するのが目的なので、施設を利用する人数はあまり重要ではないでしょう。また、民営スポーツクラブのようなものなら親が送り迎えするのがむしろ普通であり、距離もさることながら、設備の良さや営業時間帯の長さの方が重要な選択要因になる。そういう場合、ボロノイ図はあまり良いモデルにはならないでしょう。 ところで、どの区画においても「全人口に占める15歳以下の比率」にさしたる違いがないとすれば、お持ちのデータはご質問のような理論を支持する証拠にはなりえない。(全人口なのか15歳以下の人口なのか、どっちの影響なんだか区別が不可能である。)逆に言えば、「子供の比率が少ない区画や、多い区画、というものがある」ということこそが重要な前提です。もし、子供の比率のばらつきが小さいようでは、データはほとんどノイズばかりということです。 ま、それはさておき。 大変な集計作業をなさって得られたデータを使ってみましょう。区画の数をN, 調査対象の全人口をP、15歳未満の全人口をYとし、 x[k] = (区画k内の人口)N/P-1 y[k] = (区画k内の15歳以下の人口)N/Y-1 とする。このとき、 理論A「x[k]はkによらずおおむね一定」 理論B「y[k]はkによらずおおむね一定」 のどっちがもっともらしいか、という話です。 もし、区画がランダムに選ばれた場合(たとえば、地図にダーツを2本投げて、1本目を中心とし、1本目と2本目の距離を半径とする円を描いてひとつの区画とする、というやり方でN個の区画を決めた場合)には、理論A,B共に成り立たず、しかしx[k]とy[k]は強く相関している(x[k]が大きいほどy[k]も大きいという傾向がある)に違いないから、横軸x、縦軸yとしてN個の点(x[k], y[k])をプロットした散布図は、おおむね右上がり45度に延びた紡錘形になるでしょう。言い換えれば、この散布図を、原点を中心として角度θだけ回転したもの (X[k], Y[k]) = (x[k]cosθ-y[k]sinθ, x[k]sinθ+y[k]cosθ) を考え、θを調節してXの分散が最大(横長の紡錘形)になるようにしてやると、その時の回転角θはほぼ45度である。 つまりこの回転角θが45度に近いようなら、理論A,Bはどっちももっともらしくない。でも、もしθが0度に近いのなら、理論Aがもっともらしい。もしθが90度に近いのなら、理論Bがもっともらしい。また、もし散布図がダンゴ状態で、回転したところでさして違いがないのなら、子供の比率のばらつきが少なすぎてデータはほとんどノイズだけでできている。 ですから散布図を描いてみれば、お考えの理論A, Bがもっともらしいかどうか、それらをお持ちのデータで検討できそうかを、とりあえず視察することができるでしょう。 この回転角θをどうやって正確に計算するかというと、固有値ってものを使います。 A[1,1]=Σ((x[k])^2), A[1,2] = Σ(x[k]y[k]), A[2,1]=Σ(x[k]y[k]), A[2,2] = Σ((y[k])^2) という2行2列の行列を作り、(Σはk=1~Nの総和。A[1,2]=A[2,1]です) Ap = λp という方程式を解く。λは実数、pは2次元ベクトルです。要素で表せばこの方程式は (A[1,1]-λ)p[1]+A[1,2]p[2] = 0 A[2,1]p[1]+(A[2,2]-λ)p[2] = 0 という連立方程式である。これが解を持つためにはλは (A[1,1]-λ)(A[2,2]-λ)-A[1,2]A[2,1]=0 というλに関する二次方程式を満たさねばならない。この二次方程式の二つの解λ[1]. λ[2]が固有値です。(ここで、λ[1]とλ[2]が近い値である場合、散布図はダンゴ状態になっていて、正確なθなんてものはさしたる意味を持たない。)大きい方の解λ[1]について、 (A[1,1]-λ[1])p[1]^2=(A[2,2]-λ[1])p[2]^2 という関係式からベクトルpの方向が決まる。これを固有ベクトルと言います。で、pの方向がX軸になるように回転してやれば良い。つまり (tanθ)^2 = (A[1,1]-λ[1])/(A[2,2]-λ[1]) です。