• ベストアンサー

分割方法

Aの領域{-20,-18,-10,-8,-5,-1,0,2}(負の領域に多い) Bの領域{-1,1,5,6,9,10,15,22,34}(正の領域に多い) と言うことが分かっています。 ここである1つのデータ{0.5}があります。この場合これはAの領域、 Bの領域どちらの領域とみますか? つまり、こういった場合のA領域とB領域の領域分割の方法にはどのような ものがありますか?また3種類以上あった場合はどうしますか?

質問者が選んだベストアンサー

  • ベストアンサー
  • holydevil
  • ベストアンサー率39% (121/310)
回答No.1

数学的な確立された手法があるかどうかわかりませんが、私は1次元、2次元、3次元、n次元でもとにかく重心を考えます。 今回は1次元の重心ということで平均を考えればいいでしょう。 Aの領域の値の平均は-7.5 Bの領域の値の平均は+11.22222222・・・・ 0.5はという場所は距離的にどっちが近いでしょう? Aの領域の値の平均との距離 |-7.5-0.5|=8 Bの領域の値の平均との距離 |11.22222222・・・・-0.5|=10.722222・・・・・ つまり、Aの領域との距離のほが短いので、Aの領域に近いといえます。3種類あろうが4種類あろうがもっとも距離の短い領域に含まれると思うのですが・・・。 物理的な考えはこれでOKだと思いますが、数学的になにかあるのでしょうか?物理=数学だと思うので大丈夫だと思いますが・・・。

その他の回答 (2)

  • starflora
  • ベストアンサー率61% (647/1050)
回答No.3

    まず、Aの領域、Bの領域と記していますが、これは「領域」ではありません。点の値です。つまり、少し具体的に考えてみると、Aという種類の物質(または何かの物体等)について、その特性を測定すると、Aの領域として示されているようなデータが得られた。Bについても測定すると、Bの方のデータが得られた。ところで、未知のAかBらしい物質について特性測定すると、0.5という値が得られた。この未知の物質(物体)は、AとBとどちらである確率が高いか、こういう話になるはずです。     この場合、測定による「特性分布」が何に従っているかで、話が違って来ます。自然界の分布は、正規分布が多いですが、そうでない分布も色々あります。正規分布する現象に、何か別のファクターが加わっていて、偏りが出ている場合もあれば、元々正規分布とは関係のない分布もあります。(例えば、死亡年齢の分布は正規分布するかといえば、しないのです。と言って、まったくでたらめな分布でもありません。これは元々正規分布でないのです。しかし、ある狭い幅を取れば、そのなかでは正規分布が適用できる可能性があります)。     AやBのデータの特性測定値が、正規分布だと仮定するなら、中心値と分散を計算すれば、新しいデータ値は、どちらに属するかの確率が出てきます。しかし、別の分布を仮定するなら、その分布に従った計算で、確率を計算しないとなりません。     AやBのデータの取り方の分布が分かっている場合は、仮定ではなく、理論的にそうなるということで、確率が計算できるでしょう。     つまり、どういう「分布」かの想定次第で、判断の基準、考え方を変えないといけないということです。正規分布が多いので、中心値と分散で、正規曲線を決定して、そこから、0.5が含まれる確率も計算できますが、現実の分布は、必ずしも正規分布ではないということです。      まったくランダムな分布もあり、その場合、AやBの結果は、かなり規則性があり、こういうデータが出ること自体珍しいといえるのですが、偶然、そういうことになる可能性もない訳ではありません。また、基本数があって、それに上乗せして結果が出ている場合、つまり、Aなら、-21に基準があって、ここから+5までの範囲にランダムに数字が出ている場合、或る数字が出る確率はどれぐらいかというと、-21から5までの数字なら、出現確率はみな同じになります。Bは幅が36ありますが、Aにも同じような幅を考えれば、0.5などは、そもそもAでもBでも出てこないということになり、0.5ではなく、0か1という場合、AもBも全体数が同じだと、確率は、0か1それぞれに、1/全体数で、同じになります。    

googlegoogle
質問者

補足

別に分布のことについて語ってもらいたい訳ではないです。こういった事実があり、どう分けますか?って話です。そう言う意味の質問です。あなたは正規分布と仮定し、分けるのですね。今のところは、重心で考える方法が簡潔で的確に私の的を得ています。

  • upsilon4s
  • ベストアンサー率25% (4/16)
回答No.2

分散も考えた方が良いように思います。 例えば、 A{-103,-102,-101,-100,-99,-98,-97} 平均は -100 でその付近に局在 B{-50,0,50,100,150,200,250} 平均は 100 で広がりを持つ といったような2つの領域の場合、 データ{0}は平均からの距離はA、Bどちらとも同じ距離ですが、分散を考えてB領域に含まれるとすべきではないでしょうか。

googlegoogle
質問者

補足

これは上の方の回答に包含されますね。

関連するQ&A