- 締切済み
エントロピーとユークリッド距離の違い
相対エントロピー(KL情報量)は、確率分布同士の距離を測る尺度として定義されていて、ある分布pの起こりやすさ(あいまいさ)を表すものと理解しています。 http://ja.wikipedia.org/wiki/%E3%82%AB%E3%83%AB%E3%83%90%E3%83%83%E3%82%AF%E3%83%BB%E3%83%A9%E3%82%A4%E3%83%96%E3%83%A9%E3%83%BC%E6%83%85%E5%A0%B1%E9%87%8F 疑問として、ユークリッド距離と相対エントロピーはどちらの方が利点があるのでしょうか?起こりやすさを表すのであれば、相対エントロピーを考える方がよい気がしています。 たとえば、ある冬の平均気温を観測したら a=5℃ b=11℃ c=6℃ ・・・ というデータが得られたとして、普通にユークリッド距離として(a-b)*(a-b)を考えると、ユークリッド距離の場合は観測データのみで良さを測るため、その場所の特長や暖冬の日などの状況に対処できていないと考えられます。 相対エントロピー(KL情報量)なら起こりやすさを表す確率を使えるので、そのような特長も加味できる?ので、相対エントロピーの方が良いのではないかと考えています。 実際はどうなんでしょうか? 御存知の方、教えてください。 よろしくお願いします。
- みんなの回答 (2)
- 専門家の回答
みんなの回答
- stomachman
- ベストアンサー率57% (1014/1775)
ANo.1のコメントについてです。 尺度は具体的な課題に合わせて、旨く特徴を掴みしかも扱いやすいようなものをデザインするのが本来の姿であって、そのバランスの取り方は価値観の問題です。これは工学であり、デキアイのものが気に入らないのなら気に入るのを作れば良いんです。 > 具体例を 関数f, gが他の関数との和や差として扱われる場合。例えば、関数を基底系でスペクトル分解をしたときに、級数のどこから先を打ち切るかを考えるときなど。二乗ノルムは微分できて比較的簡単な形になるので、たとえばfをよく近似するようにgのパラメータを調節する、などの極値問題を扱いやすいという利点があります。 > あまり差が見られない気がします。 加法性の有無が一番重要な違いでしょうけれども、そんなことは重視しない価値観に基づいて評価なさっているのでしょう。ならば「あまり差がない」という結論で結構かと思います。
- stomachman
- ベストアンサー率57% (1014/1775)
分布(つまりは関数)を要素(いわば「点」)とする空間(関数空間)では、二つの関数(点)の間の「近さ」ってものを定義してやらないと、隔たりを測りようがありません。比較をする目的に応じて尺度を作ってやる訳で、KL情報量もそのひとつということです。 ご質問にある数値例は、「二つの分布(確率密度関数)の間のユークリッド距離の例」としては不適切でしょう。分布f, gの間のユークリッド距離D(f,g)の2乗(普通は「二乗ノルム」と言いますが)すなわち (D(f,g)^2) = ∫ ((f(t)-g(t))^2) dt (∫はf,gの定義域に関する定積分) が役に立つのは、「tが幾らであろうと、また、f(t), g(t)が幾らであろうと、両者の差の絶対値が同じであればf, gの隔たりは同程度」と考えることが適切であるような場合です。 一方、f,gが確率密度関数である場合、例えば変量tが[T, T+1]の区間に落ちる確率が f(T)= 1% g(T)= 2% と予想され、変量tが[U, U+1]の区間に落ちる確率が f(U) = 50% g(U) = 51% と予想されたとします。すると、t=Tにおけるfとgの隔たりと、t=Uにおけるfとgの隔たりは、予想の差だけ見れば一緒ということになる。だけど、情報量の観点からは「f(U)とg(U)は似たようなもんだけど、f(T)はg(T)の2倍にもなる」ということに着目して比較する方が適切。 情報量に関して、こちらもご参考に → http://oshiete1.goo.ne.jp/qa4870476.html
補足
>「tが幾らであろうと、また、f(t), g(t)が幾らであろうと、両者の差の絶対値が同じであればf, gの隔たりは同程度」と考えることが適切であるような場合です。 式から考えてこのようにいえることは分かりますが、具体的にどのような場合か分かりません。何か具体例を頂けないでしょうか? >情報量に関して 参考先URLにおいて、エントロピーとL2ノルムにどれだけ差ができるかみたい。 No.5の家が壊れる確率は、50%だからL2ノルムの場合でも同じになると思います。 No.1の家、No.10の家については ・エントロピーの場合、 -log(0.10)、-log(0.0・・・1) なので、非常に情報量が高い。 ・L2ノルムの場合 No.1の家:実際に壊れたと観測される家は、予想確率が高いものだと思うので、予想確率が低いNo.1の家との距離は非常に大きくなると思われる。 No.10の家:実際に壊れたと観測される家のうち、予想確率が低いもの(ノイズが大きく外れたもの)との距離が爆発的に大きくなり、距離は大きくなると思われる。 こう考えると、あまり差が見られない気がします。L2ノルムが外れたデータに弱い分、エントロピーの方が実際のデータに対してもうまくいきそうな気がしますが、どちらが有効的なのでしょうか?