- 締切済み
困っています。標準誤差(エラーバー)について教えてください。
統計グラフについての質問させてください。 変化率の経時的グラフを作っています。x軸に時間、y軸に治療に よって改善した二つのファクター(症状と検査値)をプロットして います。 具体的には、治療開始一日目、母集団の症状のスコアの平均が3→1に減ったとして変化率をスコアの変化÷ベースラインの値; 3-1/3=66.7%と計算しています。検査値も同じように変化率を求めます。 この場合、グラフに標準誤差のエラーバーをつけることは可能ですか?どのような計算式で求めるのでしょうか? 卑近な方法ですが、エクセルで標準誤差を自動的に表すことができたのですが、標準誤差の統計的な意味を考えると、変化率だけで、元データの実際値を使わずに求められるのがおかしい気がします。 統計初心者で、質問がわかりにくかったらすみません。どなたか教えていただけますか。これを考えてもう2週間以上経過し、答えがでません。よろしくお願いします。
- みんなの回答 (4)
- 専門家の回答
みんなの回答
- sanori
- ベストアンサー率48% (5664/11798)
>>> >一般に、ある事象が「起こる/起こらない」の2通りであって、 >データの合計値が整数である場合、 >合計値の標準偏差は、おおむね √合計値 とすることができます と書かれていらっしゃいますが、 データの合計値が整数でない場合、たとえばある細胞の活性度合 でパーセンテージ表示や小数点表示されるもの(例、ナントカ細胞活性率が20%→30.4%へ変化)などでは、どうなるのでしょうか? 上記の考え方は適応できますか? その場合は整数にできませんので、 標準偏差 = √合計値 の考え方は適用できません。 生データから標準偏差を求めることになります。 以下、蛇足。 「視聴率は14.8%」という言い方がありますが、 この場合は、生データは整数なので、 視聴者数の標準偏差 = √視聴者数 となります。 実際の視聴率の集計方法は、ベールに包まれているらしいですが、 膨大な世帯数で集計しているわけではないので、 結構誤差があるらしいという話は聞いたことがあります。 小数点以下は誤差の範囲らしいので、0.5%の差とかで、どちらが多いというような議論をしても無意味らしいです。
- sanori
- ベストアンサー率48% (5664/11798)
>>> 実はデータはご推測通り、 患者数と患者全員のスコアの合計しか入手できていないのです。 (レビュー論文のため) ありゃ。そうでしたか。 >>> そこで、ご教授いただいた、概算の方法が大変ありがたかったのですが、どうしてそのように概算できるのか、しくみを教えて いただきたいのです。いろいろ自分で調べてみたのですが、 概算法がどうしても見当たりません(泣)。 かえってご苦労をおかけしてしまったようです。 なんか、申し訳ないです。 最初の回答における >全員のスコアの合計が 345 → 123 (差は222) であるとしますと、 >標準偏差は、おおむね √222 ( ≒15) で近似できます。 の箇所がポイントになりますが、 これの大元の考え方は、「二項分布」です。(たぶん高校数学で習うと思います。) http://ja.wikipedia.org/wiki/%E4%BA%8C%E9%A0%85%E5%88%86%E5%B8%83 右の表に書かれている通り、二項分布の分散の理論値は、 V = np(1-p) です。 nが患者数、pはスコアが(1個)減る確率、1-pは、減らない確立です。 ここで、 pが非常に小さいときは、 V ≒ n・p・1 = np となり、 pが非常に大きい(1に近い)ときは、 V ≒ n・1・(1-p) = n(1-p) となり、 また、pの値が1/2 の付近であれば、 V ≒ n・p・p = np^2 となります。 よって、標準偏差(分散の平方根)は、 pが非常に小さいときは、 σ ≒ √(np) となり、 pが非常に大きい(1に近い)ときは、 σ ≒ √(n(1-p)) となり、 また、pの値が1/2 の付近であれば、 σ ≒ √(np^2) となります。 一方、スコアの変化の合計値は、当然ながら、np です。 なぜならば、pは、スコアが1個減る確率であるからです。 スコアの変化の合計値をSと置けば、 pが非常に小さいときは、 σ ≒ √(np) = √S となり、 pが非常に大きい(1に近い)ときは、 σ ≒ √(n(1-p)) = √(n-pS) となり、 また、pの値が1/2 の付近であれば、 σ ≒ √(np^2) = √(pS) となります。 つまり、標準偏差σの見積もりは、大きく分けて3種類あることになります。 しかし、最初の回答では、Sの標準偏差は √S とだけ書きました。 それはなぜかと言えば、 √S、 √(n-pS)、 √(pS) の3種類のうち、 「もっとも厳しく考えた」(つまり、最もσを大きく考えた)ときのσが √S であるからです。 ですから、スコアの変化数の合計Sとエラーバーは、 S ± √S とすべきなのです。 一般に、ある事象が「起こる/起こらない」の2通りであって、 データの合計値が整数である場合、 合計値の標準偏差は、おおむね √合計値 とすることができます。 今回のご質問のケースでは、1人の患者さんのスコアの変化が1とは限らず2である場合もあります。 しかし、2というスコア変化が1というスコア変化を2回起こしたという考え方をすれば、 結局、同じところに行き着きます。 ちなみに、 なぜ私がこの考え方を知っているかというと、 学生時代に放射能の測定の実験を経験しているからです。 ある時間の間に計測された放射線のカウントがN個であるとき、 測定した時間の長さが何であれ、Nの標準偏差は √N です。 このサイト http://www.geocities.jp/ikuro_kotaro/koramu/576_cpd.htm の「【2】ポアソン分布」の中の「[1]稀な現象のモデル分布」 の項もご参照ください。 「この実験で時間Tの間に起こる事象の平均回数に関する最良推定値は観察された回数νですが,その誤差は平方根をとって√νとなります.これを「計数実験についての平方根則」と呼びます.」 と書かれています。 ちなみに、ポアソン分布というのは、非常に多くのデータ数がある二項分布に相当します。 >>> また、この場合、エラーバーは標準誤差ではなく、 標準偏差の方が適当ですか?データの集団はあくまでサンプル集団 なので(世界中の患者さまを集めたわけではないので)、標準誤差を 使うべきかと単純に考えたのですが。 標準偏差の数字の後ろには、「人」という単位がついています。 しかし、グラフの縦軸は、「人」ではなく、「%」つまり割合です。 スコア変化の合計の標準偏差を患者数で割ったものを標準誤差と考えればよいです。 %表示なので、当然、100を最後にかけることになりますが。 以上、ご参考になりましたら。
補足
大変わかりやすい御説明何度も誠にありがとうございます。 わたくしのようなど素人でも、何とか理解できました。 申し訳ないのですが、最後にひとつだけ質問させてください。 >一般に、ある事象が「起こる/起こらない」の2通りであって、 >データの合計値が整数である場合、 >合計値の標準偏差は、おおむね √合計値 とすることができます と書かれていらっしゃいますが、 データの合計値が整数でない場合、たとえばある細胞の活性度合 でパーセンテージ表示や小数点表示されるもの(例、ナントカ細胞活性率が20%→30.4%へ変化)などでは、どうなるのでしょうか? 上記の考え方は適応できますか? なにとぞよろしくお願いします。
- sanori
- ベストアンサー率48% (5664/11798)
お礼のお言葉をありがとうございました。 >>> SE=±SD/√n SD=√1/nΣ(xi-xmean)二乗 ですよね。 そのあと、どのように考えれば上記の式になるのでしょうか? 前回回答では、 SD=√1/nΣ(xi-xmean)二乗 という式は使っていません。 「患者数」と「患者全員のスコアの合計」の2つだけがわかっている場合の簡易な概算方法を示したものです。 患者全員のスコアのデータがある場合は、 スコア変化の分散 = 1/患者数 × Σ(各患者のスコア変化 - スコア平均)^2 スコア変化の標準偏差 = √スコア変化の分散 = √(1/患者数) × √Σ(各患者のスコア変化 - スコア平均)^2 (↑ ここで、√(1/n) が登場していることに注目してください。) そして、 >>>変化率をスコアの変化÷ベースラインの値; >>>3-1/3=66.7%と計算しています。 ということのようですので、 エラーバーを標準偏差の1倍相当にするならば、 エラーバーの片側長さ = スコア変化の標準偏差 ÷ ベースラインの値 とします。 パーセントにする場合は、100をかけます。 >>>また、自分で調べる場合の参考図書などだけでも結構です。 理論から入ると、頭でっかちになるだけで応用が利かない場合が多々ありますので、 実用についてわかりやすく書かれているものがよいと思います。 たとえば、工業のQC(製品の品質管理)に関する本なんかはお勧めです。 工業の製造部門勤務者の多くは高卒ですから、そういった方々でもわかるように書かれているものが多いと思います。 以上、ご参考になりましたら。
補足
sanori様、今回も教えていただきまして、誠にありがとうございます。 再び補足質問で大変恐縮ですが、質問させてください。 実はデータはご推測通り、 患者数と患者全員のスコアの合計しか入手できていないのです。 (レビュー論文のため) そこで、ご教授いただいた、概算の方法が大変ありがたかったのですが、どうしてそのように概算できるのか、しくみを教えて いただきたいのです。いろいろ自分で調べてみたのですが、 概算法がどうしても見当たりません(泣)。 また、この場合、エラーバーは標準誤差ではなく、 標準偏差の方が適当ですか?データの集団はあくまでサンプル集団 なので(世界中の患者さまを集めたわけではないので)、標準誤差を 使うべきかと単純に考えたのですが。 何度もお答えいただき誠に感謝しております。 すみませんが、よろしくお願いいたします。
- sanori
- ベストアンサー率48% (5664/11798)
こんばんは。 スコアの平均 3→1 (差は2)という情報だけでは、エラーバーを立てることができません。 全員のスコアの合計が必要になります。 スコアの合計の平方根が、おおむね、標準偏差になります。 標準偏差を患者数で割れば、おおむね、標準誤差になります。 では、たとえば、 全員のスコアの合計が 345 → 123 (差は222) であるとしますと、 標準偏差は、おおむね √222 ( ≒15) で近似できます。 エラーバーの長さを、±標準偏差にすると、 222 ± 15 となります。 あとは、変化前のスコアと総患者数で割ればよいだけです。 よって、 変化率 = 全員の変化数の和 ÷ 変化前のスコアの和 ÷ 患者数 ±エラーバーの長さ = ±√全員の変化数の和 ÷ 変化前のスコアの和 ÷ 患者数 となります。 (パーセントにする場合は、それぞれ100をかけます。) 以上、ご参考になりましたら。
お礼
sanori様 貴重なご回答ありがとうございます。 やはり母集団の元データが必要なんですね。 本当にありがとうございました。 もし、補足やご意見ご指摘がございましたら、お願いします。 参考にさせていただきます。
補足
sanori様 先日は貴重なご回答誠にありがとうございました。 時間が経過してから追加の質問で誠に恐縮なのですが、 satori様に教えていただいた式に、どうしてなるのか 意味がどうしてもわかりませんでした。 SE=±SD/√n SD=√1/nΣ(xi-xmean)二乗 ですよね。 そのあと、どのように考えれば上記の式になるのでしょうか? お手数ですが、ご教授いただけますと幸いです。また、自分で調べる場合の参考図書などだけでも結構です。 よろしくお願いします。
お礼
sanori様 貴重なお時間と労力を使って丁寧にご回答いただき、 本当にありがとうございました。 感謝申し上げます。 今後、ご推薦いただいた関連の本やホームページで 勉強していきたいと思います。