簡単のため、説明変数tと、目的変数xが、共に実数(スカラー)とします。
また、フィッティング関数
F=F(t,a,b,c)
も、簡単のため3変数または4変数のスカラー値関数とし、フィッティングパラメータa,b,cも実数(スカラー)とします。また、Fがフィッティングパラメータを2つしか持たない場合(Fが3変数の場合)には、
F(t,a,b)と読み替えて考えることにします。
また、データ、即ち説明変数と目的変数の実測値の組 (t_{i},y_{i})がn個あるとする。
また、以下の4種類の評価関数を考えます。
A:所謂2ノルム
A(a,b,c)=Σ|{y}_{i}-F({t}_{i},a,b,c)|^2
B:n個の正数w_{i}を用いて、重みづけ
B(a,b,c)=Σ(w_{i}|{y}_{i}-F({t}_{i},a,b,c)|^2)
C:単調(非退化、つまり任意の点で微分がバニッシュしない)な関数φを用いて変換
C(a,b,c)=Σ|φ({y}_{i})-φ(F({t}_{i},a,b,c))|^2
D:所謂1ノルム
D(a,b,c)=Σ|{y}_{i}-F({t}_{i},a,b,c)|
(Q1)このとき、以下の命題のうち、同値な命題はどれとどれですか?
P「(a,b,c)がAの極値点である」
Q「(a,b,c)がBの極値点ある」
R「(a,b,c)がCの極値点ある」
S「(a,b,c)がDの極値点である」
(Q2)重みづけの意味について:
*実際、最急降下法のプログラムを作ってみると、
Dの場合で、直線に近い形状になるように変換した場合(たとえばシクモイドの場合logをφに取る)。
Cの場合で、変化が緩慢なiに重みをつけた場合。
Aの場合。
の順に速度が速く、いずれの場合もだいたいの場合には、まあまあ(10000回ぐらい再起計算すれば)
まあ、見た目に近いグラフが出てきます。
だとしたとき、wやφというのは、何を意味しているのでしょうか?
ここで、最急降下法は、以下の意味で考えている
最急降下法の初期パラメータを(a_0,b_0,c_0)とし、
k回目の計算値を({a}_{k},{b}_{k},c_{k})と記載する。
このとき、({a}_{k},{b}_{k},c_{k})は、以下の漸化式を再帰的に数値計算することで求める。
(a_{k+1},b_{k+1},{c}_{k+1})=(a_{k},b_{k},{c}_{k})-ε*grad(J(a,b,c))
但し。Jは、A,B,Cいずれかの評価関数で、εは充分小さい正定数
(Q4)εのテンソル化:
というほど大げさなものではありませんが、εを正値の対角行列にした場合
収束が早いことがあります。この場合εの異方性がフィッティングパラメータの収束性
どのように作用しているのでしょうか?また、こんなことをしてもいいのでしょうか?
お礼
回答ありがとうございました。消化に時間を要しすみません。降下法の部分は、理解が追いついていないので…。まず、「正しいノルム」について整理すると、こんな感じでしょうか? こんな感じでしょうかと言いながら、自分でも怪しいと思ってますが。 【ノーテーション】 (t[i],y[i]) i=1,2,...,n を、F(t;a,b,c)でフィッティングする問題を考える。 第i個目のデータの残差を以下のように定義する。 ε[i]=|y[i]-F(t[i],a,b,c)| となる。 【残差iの確率分布】 正値の関数 w(t):R→R+ によって、 η[i]=\sqrt{w(t[i])}ε[i] とした場合に、η[i]が、確率分布Pに従うとする。 このとき、 i番目のデータのみに着目した場合、 フィッティングパラメータの値が(a,b,c)である確率p[i](a,b,c)は p[i](a,b.c)=P(ε[i])=P(|y[i]-F(t[i],a,b,c)|) となる。 【残差の確率分布】 それぞれの測定が独立試行である場合で、 n個のデータを知っていた場合、 フィッティングパラメータの値が(a,b,c)である確率p(a,b,c)は、 p(a,b,c)={Π}_{i=1}^{n}p[i](a,b,c) となる。ただし、Πは連乗積である。 【最も尤もらしいa,b,c】 それぞれの測定が独立試行である場合で、n個のデータを知っていた場合、 最も尤もらしいa,b,cとは、p(a,b,c)が最大となるa,b,cである。 【Pが正規分布の場合】 p[i](a,b,c)=N[0,1](η[i]) であるときには、 p(a,b,c)=\frac{1}{{2\pi}^(n/2)exp(-{\sum}_{i=1}^{n} w(t[i])\frac{ε[i]}{2} )} が、最大となるa,b.cが、最も尤もらしい。 一般に、 N[m,\sigma](x) は、xが0に近ければ近いほど大きいため、 {\sum}_{i=1}^{n} w(t[i])\frac{ε[i]}{2} が、最小となる、a,b,cが尤もらしい。 但し、 N[m,\sigma](x)=\frac{1}{\sigma\sqrt{2\pi}}exp(-\frac{(x-m)^2}{2{\sigma}^2}) とする。