- 締切済み
MP3のしくみについて
MP3やjpegはフーリエ変換の一種の離散コサイン変換で圧縮していると聞きました。 http://www.ic.is.tohoku.ac.jp/~swk/lecture/yaruodsp/fs.html によると、フーリエ変換は、正弦波と余弦波の重ね合わせで音を表現する、簡単にいうと音叉を何十本も同時に鳴らすと元の音が再現できる、という話です。 MP3、jpegもこれと同じ原理でしょうか?それをまず伺いたいです。違うなら解説お願いします。 また、jpegは8×8画素のブロックに分割してそれぞれを離散コサイン変換しているのはわかりましたが、 http://ja.wikipedia.org/wiki/JPEG#.E7.AC.A6.E5.8F.B7.E5.8C.96.E6.96... MP3は何秒間の音を離散コサイン変換しているのでしょうか? ご存じの方教えて下さい。
- みんなの回答 (3)
- 専門家の回答
みんなの回答
- SortaNerd_
- ベストアンサー率59% (309/522)
576サンプルまたは192サンプルの選択式…のようですが…。 MP3には詳しくないのでちょっと自信がありません。本当にこの中途半端な数を使っているのでしょうか…。 また、サブバンド分割なる処理も入るようですがこれについて理解できていません。 一応Wikipediaを見る限りこの数字なのは正しそうですが…。 英語版Wikipedia、MP3のページ http://en.wikipedia.org/wiki/MP3#Encoding_audio 「During encoding, 576 time-domain samples are taken 」 「If there is a transient, 192 samples are taken instead of 576. 」 日本語版Wikipedia、AACのページ http://ja.wikipedia.org/wiki/AAC 「long blockが576点相当(32サブバンドx18点)、short blockが192点相当(32サブバンドx6点)であったMP3と比較して」 なおこのサンプル数が何秒に当たるのかはサンプリングレートによって違い、 44.1kHzであれば576×(1/44.1kHz)≒13ミリ秒になると思います。 バッファは今回の質問に無関係だと思います。
- hrsmmhr
- ベストアンサー率36% (173/477)
詳しくないですが… 多分サンプリングレートそのものか、その区間をさらに何分割かしたものだと思います。 44.1kHzとかいうやつです
MP3圧縮では,JPEG圧縮での『離散コサイン変換』と若干異なり,『修正離散コサイン変換』または『変形離散コサイン変換』を利用しています. JPEG圧縮は,8×8画素という固定サイズですが,MP3では,バッファごとに処理しています. ご存知の通り,バッファは,PCによって異なり,さらに,どれくらいのバッファを1ブロックとして処理するかはエンコーダに依存します. 従って,MP3圧縮の何秒間は,上のバッファ数に依存するので,不明ということになります. Wikipediaによると,やはり,バッファは,下記の通りとなっており,何バッファ積んでいるかはPCに依存していることが判ります. 『CPU・制御装置などの内部処理装置との間で信号をやり取りする際に、入出力と処理との間で時間のズレを吸収・調整をするために一時的に情報を記憶する装置や記憶領域のこと。』