- 締切済み
極値統計(Gumbel分布)について。
現在仕事である製品(平板状)の上にある傷の最大の長さを評価ようとしてます。 計測器の関係で1度に測定できる面積は決まっています。 また、製品の全面を計測できれば問題は簡単なのですが、設備、工数の制約上現実的ではありません。 そこで極値統計(Gumbel分布)を利用して傷の最大値を推定しようと考えております。 手法は以下のとおり (1)、検査基準面積(測定視野面積)を決定する。 (2)、計測器を使い検査基準面積内に存在する傷の最大の長さのものを選びその長さを計測する。 (3)、上記(2)を場所が重複しないようにN回繰り返し、N個のデータを抜き出す。 (4)、(3)で得たデータ(長さ)を小さい順に並び替える。(L(1), L(2), L(3).....L(N)) (5)、基準化変数Yを以下のようにとる。 Y=-ln[-ln{i/(n+1)}] i:(4)で並び替えたデータ(長さ)の小さいほうからの順番 n:全データ数 (6)、直行座標系の(X, Y)に(L(i), Y)をプロットし回帰直線を導出する。 (このデータの分布がGumbel分布に従ってるなら直線に近似できる) (7)、(6)で算出された回帰直線からある製品上の傷の最大長さを推定する。 (例:観測基準面積の1000倍の面積を持つ製品の最大傷長さは(6)の回帰直線でY=-ln[-ln{(1000/1001)}]=6.91になるXの値となる。) 以上のような手法である面積の最大傷長さを推定しようと思いますが、疑問があります。 面積が1000である製品を検査基準面積1で50個のデータを取ったときにその製品の最大傷長さは回帰直線でY=-ln[-ln{(1000/1001)}]=6.91でのXの値になりますが、同じ製品に検査基準面積2で50個のデータをとった場合、最大傷長さは回帰直線でY=-ln[-ln{(500/501)}]=6.21でのXの値になってしまいます。 もし、データ数が十分大きいならば観測面積が1と2の場合のデータ分布は同一になっていきますが推定量を算出するためのYの値が異なってしまいます。 この場合 I、なぜこのような差が出るのか?(数式的には理解できるがその差の理由がわかりません。) II、この場合検査基準面積1と2の場合どちらが確かな値が出るのか? が理解できません。 どなたかうまく説明していただけませんでしょうか?よろしくお願いします。 【参考にした文献】装置材料の寿命予測入門 -極値統計の腐食への適用- 腐食防食協会編 丸善株式会社 【参考】Gumbel分布 F(X)=exp[-exp{-(x-l)/a}] (a, l:定数)
- みんなの回答 (2)
- 専門家の回答
みんなの回答
- gef00675
- ベストアンサー率56% (57/100)
#1に書き忘れたので補足します。 (7)で観測基準面積のm倍の面積を持つ製品の最大傷長さを推定するのに、 Y=-log(-log(m/(m+1))) とおいて、回帰直線Y=(X-l)/aで外挿してXを求めています。 結果的にそれでよいのですが、mが大きい場合には、 Y=-log(-log(m/(m+1)))=-log(-log(1/(1+1/m))) =-log(log(1+1/m))≒-log(1/m)=log(m) ∴Y≒log(m) であることに注意すると、推定の式 X≒l+a*Y=l-a*log(-log(m/(m+1)))と、 基準面積を変更したことによるパラメータ換算l→l'の式 l'=l+a*log(m) は、mが大きいか小さいかの違いがあるだけで、本質的に同じです。
- gef00675
- ベストアンサー率56% (57/100)
>なぜこのような差が出るのか? 観測基準面積をm倍にすると、それだけ多くの傷が出現するため、最大傷長さLの分布も変化します。 Pr[L≦x; 面積m倍] =Pr[L1≦x,L2≦x,...,Lm≦x; 基準面積] =Pr[L1≦x]*Pr[L2≦x]*…*Pr[Lm≦x] =F(x)*F(x)*…*F(x)=F(x)^m =exp[-exp{-(x-l-a*log(m))/a}] したがって、回帰直線はx方向にl+a*log(m)だけずれることになります。逆にいうと、観測基準面積を変えた場合は、この関係を使って換算すればよいといえます。 >検査基準面積1と2の場合どちらが確かな値が出るのか? データ数が同一である限り、どちらが確からしいとはいえません。これは統計の問題ではなく、検査機器の特性によるのではないでしょうか。