一般的に考えると複雑になので、よく使われるモデルで考えることにします。よく使われる最小二乗法のモデルは、次のようなものです。観測数を n 、定数項を含む説明変数の個数を k とします。
(1) y[i] = a[1]x[i,1] + a[2]x[i,2]+ ... + a[k]x[i,k] + u[i]
(i = 1,2, ..., n)
y[i] は、被説明変数の i 番目の観測値
x[i,j] は、j 番目の説明変数の i 番目の観測値
u[i] は、 i 番目の観測値にかかるかく乱項
a[j] は、これから推計すべき係数パラメータ
ちなみに、定数項を持つ1 変数の最小二乗法は、ここでは 2 変数( k = 2)とみなします。
さらに、次の重要な仮定が置かれます。
(2) (仮定)u[1]、u[2]、... 、u[n] は、独立で、平均が 0 、分散が一定の正規分布に従う確率変数である。
この仮定により、y[i] も確率変数になります。
(3) (推計値)最小二乗法による a[j] の推計値を a_est[j] と記すことにします。 また、説明変数に代入する値を z = (z[1], z[2], ... , z[k]) とします。 z は、推計に使った i 番目の観測値 x[i,1], x[i,2], ... , x[i,n]でもよいし、全然別のところから持ってきた値でもよいことにします。 z における y の推計値を y_est(z) と表すことにします:
y_est(z) = a_est[1]z[1] + a_est[2]z[2] + ... + a_est[k]z[k]
a_est[j] や y_est(z) は、確率変数です。
(4) (真の値)推計値の信頼区間を求めるためには、何を「真の値」とするか決めておかなければなりません。ご質問ではこの点が曖昧なので、とりあえず、次の y(z) を真の値とします。
y(z) = a[1]z[1] + a[2]z[2] + ... + a[k]z[k]
(5) ( y_est(z) の期待値と分散) y_est(z) は、正規分布に従います。さらに次の式が成立します:
y_est(z) の期待値 = y(z)
y_est(z) の分散 = zV(a)z'
ここで、z' は、z の転置行列です。また、 V(a) は、a_est[1], a_est[2], ... , a_est[k] の共分散行列です。気の利いた統計ソフトなら、V(a) が出力されると思います。
(6) (95 %信頼区間)
標準正規分布では、-1.96 と 1.96 の間に入る確率が 95 %です。よって、(5) により、次のことが分かります。
z における推計値の信頼区間
= ( y_est(z)-1.96(zV(a)z')^0.5, y_est(z)+1.96(zV(a)z')^0.5 )
(7) (補足)
上の信頼区間は、観測値が 95%の確率でこの区間に入ることを意味するものではありません。観測値には、y_est(z) の分散に加えて、(1)にみられるようなかく乱項による散らばりが伴います。かく乱項とy_est(z) にどのような相関関係があるか一概に言えないので、この2つを合わせた分散も一概に計算できません。ただ、かく乱項とy_est(z) の相関係数が 1 のとき、2つを合わせた分散が最大になり、その時の値は、(zV(a)z')^0.5 + σ)^2 です。ただし、σは、u[i] の標準偏差です。