- ベストアンサー
時系列データの統計量
こんにちは。 いま船の航跡データからクラスター分析を行い、いくつかのルートに分類することを考えています。 クラスター分析を行うために、3次元時系列データ(x座標、y座標、時間)を統計量で処理したいのですが、こういった多次元時系列データの場合にはどのような統計量を使えばよいのでしょうか? 何卒ご指導頂けますようお願い申し上げます。
- みんなの回答 (1)
- 専門家の回答
質問者が選んだベストアンサー
ルートを分類するという事は、地理的な状態を用いて分類したい ということですね。一般的かどうかは別にして、思いついた方法を。 ルートとは時間と位置の情報で記述できる。ということから、 時間に対する多次元データにしてクラスタリングをするのはどう でしょうか。時間情報を完全にそろえるのは難しい場合には、 ある時間間隔でまとめ、その際の代表的な位置を作成する。 この時間間隔が列(変数)に対応します。どの時間間隔で区切る かは、細かすぎると次元が多くなりすぎクラスタリングが難しい という問題(次元の呪い)も出てきますが、あらすぎると区別が 付かないという問題もあるのでデータ依存かとは思います。 イメージ t1, t2, t3,..... ← 時刻(間隔) 1, 2, ,3,... ← その時刻にいる場所なので一つの軌跡を表現 ※実際はX,Y両方ありますが。 このようにすると、1レコードを一つの軌跡として取り扱うこと が出来るのでそのままクラスタリングに掛ければ分類してくれる はずです。 如何でしょうか。
お礼
ご返答有難うございます。 仰るようにデータ依存ですね。 1秒間隔で取得した位置情報データを処理して 1分間隔で位置情報(代表的な位置)をまとめていますが、 欠損値が多くあるためスプライン補間などを使って データを揃えなければクラスタリングを行うのは難しいという状況です。 言葉足らずで申し訳ありません。