- 締切済み
統計的分析に関する質問です
いつもお世話になっております ある製造工程を経って 工程を経つ前後の変化について 統計分析をしたいですが 単位は無視して単に数値だけでお願いいたします 例えば Aサンプル 工程前:10,8,9,6,7 工程後:6,5,6,3,3 Bサンプル 工程前:20,19,18,18,20 工程後:17,16,16,13,16 同じに変化量の平均値は3.4が小さくなりますが この場合 散布にかんして確認したいと思いますが、 要は各のデータのバラツキがどちらが低いのかを知りたいです。 分散を求めたら Aは0.24 Bは1.04ですが この場合Aの方がBよりも安定していると考えてもいいでしょうか? 間違ったらどうすればどちらがバラツキが低いと考えることが確認でしょうか? 宜しくお願いいたします。
- みんなの回答 (3)
- 専門家の回答
みんなの回答
- nowane4649
- ベストアンサー率54% (230/420)
大抵の場合は、データで正規化後に分散か標準偏差で評価ですかね。 Xnorm=(X-Xmin)/(Xmax-Xmin)でデータの範囲を0~1に変換。 https://data-science.tokyo/ed/edj1-5-3-3.html データ正規化後の標準偏差 Aサンプル:工程前0.40, 工程後0.51 Bサンプル:工程前0.50, 工程後0.38 場合によっては、品質係数Qの変化を見るというパターンもありますけど。 Q=平均値/半値全幅 今回だと面倒なので、半値全幅を標準偏差で代替とかしたくなりますが。 https://ja.wikipedia.org/wiki/Q%E5%80%A4 標準偏差/平均値 Aサンプル:工程前0.20, 工程後0.33 Bサンプル:工程前0.05, 工程後0.10
- kon555
- ベストアンサー率51% (1842/3559)
>>工程前後変化量が~Aの方が大きいと考えますが、間違いでしょうか このあたりは『バラつき』というものをどのように定義するかという話になります。 具体的な数値は計算済のようなので割愛しますが、数学的な意味での「バラつき」を考えるとBの方がバラつきは大きくなります。何しろ文字通り桁違いですからね。 ただ工業的というか、産業的な意味で言えば、もう一つ『許容値(公差)からの余裕』という概念が必要になってきます。 例示の数値で例えるなら、Aの製品が仮に±0.02の幅に納めなければならない、Bの製品は±0.2でいい、とするとAの製品ではNGが発生しています。 このとき数学的なバラつきの大小というのは然程意味がありません。 こうした時は別の指標を考える必要があります。 例えば工程能力指数という考え方で、定められた規格内で製品を生産できる能力自体を数値化し、比較する方法があります。 https://aoigk.co.jp/column/process-capability/ もちろんこの数字を使わなくとも、例えば許容値からの余裕率を比較してもいいですし、元々の値からの『変化率』という概念で考えてもいいでしょう。 いずれにせよ桁が違う数値の比較ですから、比率で考えた方が適切でしょうね。 繰り返しになりますが、要は定義の問題です。 おそらく製造工程の見直しなど、業務で必要になって数値化を試みているのだと推測しますが、そうした最終目的を鑑みて適切な数値を算出できれば何でもいいとも言えます。
- kon555
- ベストアンサー率51% (1842/3559)
>>分散を求めたらAは0.24、Bは1.04ですが、この場合Aの方がBよりも安定していると考えてもいいでしょうか? はい、その通りです。 分散以外にも、標準偏差がよく用いられますが、コチラの方が元データと単位が揃うので感覚的に分かりやすいというだけなので、単純な比較であれば分散だけで大丈夫です。 https://www.cybernet.co.jp/sigmetrix/learning/kousa/kousa7/ https://www.agaroot.jp/datascience/column/bunsan/
補足
ご返事いただきありがとうございます、 追加でもうひとつお願いいたしますが、 例えば 工程前後変化量が Aは0.01,0.03,0.02,0.06,0.05 Bは1.0,1.1,0.9,1.0,1.1 になれば 単に値だけではAの方が偏差は小さいけど バラツキはAの方が大きいと考えますが、間違いでしょうか、こいうふうに考えている理由は Aの各変化量を見れば最小0.01最大0.06 Bは最小0.9、最大1.1になります 各変化量の偏差を率にて見ればBのほうが 安定的だと考えますがどうすれば 統計的とか数値的に示すことができましょうか?なんか数値的に表現するのはあまり思われないですがBの方がなんか変化量の各データ間のバラツキが小さいなと気がするんですが、表現法方があれば教えていただけましょうか? 例えば変化量の平均値から各データを引き算してこの差を変化量の平均値で割り算したりとか、私は統計的には素人なのにぜひ宜しくお願いいたします。