• ベストアンサー
※ ChatGPTを利用し、要約された質問です(原文:pcで音楽を聴く過程)

PCで音楽を聴く過程とは?

このQ&Aのポイント
  • PCで音楽を聴く過程について詳しく教えてください。
  • 音楽を再生するとデコードされてWAVE形式になるのですか?
  • デジタル音源とはどのようなデータで、PCのMIDI音声でA、B、Cの音を出す仕組みなのでしょうか?

質問者が選んだベストアンサー

  • ベストアンサー
回答No.3

まず、音声データの基本はwav(wave)です。 正確に言うとwavはファイル形式の名前であって、信号のデータについて言及するならPCM(パルスコードモジュレーション、パルス符号変調)と呼ぶべきですが、まあwavとPCMとついでにCD-DAもほぼ同義と思ってもらってかまいません。 このPCMというのはどのようなデータかというと、一定の時間間隔で波の波形をそのまま記録したデータです。下図を参考にしてください。 この波というのは音の場合、空気の振動です。マイクで音を拾う際には、マイク位置の気圧が高ければ大きな数字が、低ければ小さな数字が記録されます。 つまり、 >波形が0から10までだとしたら、2356654678765 ということです。なおあなたの書き方からこの「波形」というのが何を指しているのか不明瞭ですので念のため繰り返しますと、この数字は録音するときのマイク付近、あるいは再生するときのスピーカー付近での、ある時刻における気圧です。 音に関する文脈ではこの気圧のことを「音圧」と呼んだりもします。 ここまでで分かるように、MIDIは関係ありません。なおあなたがMIDIと呼んでいるものはMIDI音源と言った方がよいでしょう。MIDIは装置の制御方法、あるいはそれを書いたファイルを指します。 mp3については画像添付の都合上回答を分けます。

この投稿のマルチメディアは削除されているためご覧いただけません。

その他の回答 (6)

回答No.7

>つまり一秒間にCを44100こ作るんですか? いいえ、違います。 波の情報を得るには1点だけでなく数百~数千の情報を使います。1点だけでは波ではありませんから。 ですから、1秒間に44100点の音圧データを取ったものを、波の情報に置き換えると44100÷数百~数千個の「C」に減ります。 余談ですが、返答が欲しい時にはお礼欄を使うことをお勧めします。補足欄は回答者に通知されません。

  • Tasuke22
  • ベストアンサー率33% (1799/5383)
回答No.6

> つまり一秒間にCを44100こ作るんですか? そうですね。44.1KHzの場合はそういうことです。 ただ、このCDのフォーマットはフィリップス社が作り、世の音楽関係の方たちは お陰で音質が悪いと憤慨している人も多く(更に音質の悪いMP3とかで満足して いる人も多くいますが)もっとなめらかなデータを持ちたいと、48KHzや96KHz のデジタルデータが扱える機器を作っています。 PCのサウンドカードも最近のものは48KHzが扱えるものは多いです。 ただ、我々が一般に入手出来る最高音質の音楽データはCDです。44.1KHzという ことになります。 PCの48KHzが扱えるというのは、録音したりして、音作りをするときに効果が出ます。

回答No.5

すみません、サイトがメンテナンス中のため画像が投稿できませんでした。 また、アクセスできないとメッセージが出たので再投稿したところ重複してしまいました。 さてmp3について。 まず、mp3もATRACもAACもみな基本は同じで、「離散コサイン変換(ディスクリートコサイントランスフォーム、DCT)」というものを使います。 どうもNo1さんはそれを誤ってTwinVQと呼んでいるふしがあります。(私の勘違いならすみません)、TwinVQもまた別の1形式です。AACに含まれていることもありません。 この離散コサイン変換を理解するのはかなり困難だと思いますが、これが音声圧縮の肝となる部分ですので、できる限り説明したいと思います。 この変換は「時間変化する量」すなわち「波」を「時間によらない、周波数ごとの強さ」に変換するものです。 下図(メンテナンスが終わってから上げます)で説明します。 例えば図のAのような波があったとして、これはBに示す3つの波を足し合わせたものとして表現できます。 ここで、その3つの波の周波数(3,2,1)を横軸にとり、振幅(1,5,3)を縦軸にとったグラフCが描けます。 今回は周波数3つのみで表せましたが、通常はそんなことはなくもっと中途半端な値も含み、グラフはもっと連続的で複雑なものになります。 イメージとしてはDです。 さて何が嬉しくてこんな面倒な変換をしなければいけないかですが、この変換を音に適用すると音を周波数ごとに分けて扱うことができるようになります。 人間の耳は周波数を聞きとっています。つまり図のAのような波を聞けばAの形を認識するのではなく、Bの3つの音の波が重なったものだと判断します。 つまり、周波数に分けて扱う方法は人間の感覚にあっているわけです。 例えばごく初歩的なところで、人間の耳に聞き取りにくい高周波や低周波の音は数字を粗くして0~9で表すけれど、聞き取りやすい真ん中あたりの音はもっと細かく0~99で表す、といったことができます。 他にも周波数に分けることにより色々な処理が可能になります。 また、TwinVQは似た音をひとまとめに扱う処理をしているそうです。 ある意味MIDIに近い方式だと言えるでしょう。

taiki123
質問者

補足

質問者です。 回答ありがとうございます。 わからない点がありまして、 つまり一秒間にCを44100こ作るんですか?

回答No.4

まず、音声データの基本はwav(wave)です。 正確に言うとwavはファイル形式の名前であって、信号のデータについて言及するならPCM(パルスコードモジュレーション、パルス符号変調)と呼ぶべきですが、まあwavとPCMとついでにCD-DAもほぼ同義と思ってもらってかまいません。 このPCMというのはどのようなデータかというと、一定の時間間隔で波の波形をそのまま記録したデータです。下図を参考にしてください。 この波というのは音の場合、空気の振動です。マイクで音を拾う際には、マイク位置の気圧が高ければ大きな数字が、低ければ小さな数字が記録されます。 つまり、 >波形が0から10までだとしたら、2356654678765 ということです。なおあなたの書き方からこの「波形」というのが何を指しているのか不明瞭ですので念のため繰り返しますと、この数字は録音するときのマイク付近、あるいは再生するときのスピーカー付近での、ある時刻における気圧です。 音に関する文脈ではこの気圧のことを「音圧」と呼んだりもします。 ここまでで分かるように、MIDIは関係ありません。なおあなたがMIDIと呼んでいるものはMIDI音源と言った方がよいでしょう。MIDIは装置の制御方法、あるいはそれを書いたファイルを指します。 mp3については画像添付の都合上回答を分けます。

  • yomyom01
  • ベストアンサー率12% (197/1596)
回答No.2

・MIDI音源とMP3は関係ありません

  • Tasuke22
  • ベストアンサー率33% (1799/5383)
回答No.1

お答えしましょう。と言っても回答は膨大な量になりますので おさわりだけにならざるを得ません。 デジタル音楽データは、多くの形式があります。 MIDIはMIDIだけで1つの形です。ご存知のようですが、MIDIは 音源を持っていて、その音源をどう使うかという楽譜のような データになります。いわゆるデジタルとは別世界でMIDIはMIDI という分野でしょう。 音は1つの波です。色々な音が混じると、複合されますが、結局 は変形した波で表すことが出来ます。 これを1秒間を44100に割って、その瞬間の波のボリュームを数 値化したものを右と左のステレオにしたのをCDミュージック形 式でCD-DAと言います。これを殆ど素直にPC内に写したフォー マットがWAVEやTIFFです。 これがデジタルの基本であり、アナログをデジタルにする場合 この形にまずします。各種デジタルデータもWAVEのような形に デコードし、アナログへと変換します。 このデータの原理をもう少し説明します。ボリュームの大き さを刻々と復元したら、ボリュームの波が描けます。規則正 しい正弦波とかでしたらキーンといった単調な音になります。 複数の音が混じっているので複雑な波が現れ、これが音の高 さや音色になります。 音の高さはHzで決まります。つまり1秒間に何回波があるかで 音の高さが決まります。 CD-DAの1秒に44100回というのは、波の上下を記録したとした ら、1秒間に22050回の波を記録出来ます。なので、約22KHzま での高さを記録出来ますが、実質20KHz程度でしょう。 因みに個人のプレイヤーで15KHz以上出せるプレイヤーを持っ ている人は稀です。 このCD-DAを私は「固定小数点型」と勝手に読んでいます。 MP3はCD-DA(まあWAVEと今後書きます)から、大きな音のすぐ後 ろの小さな音は聞こえにくのでカットする、とか音を削りとり ます。なので、私は「削り取り型」と呼んでいます。 ATRAC、初期のMDプレイヤーの形式は、高音、中音、低音を分け それぞれの音をなぞって記録する、細かな精度より大きさ重視 ですね。私はこれを「浮動小数点型」と呼んでいます。 ですので、WAVEは音の大きさを16bitで記憶し、これをデシベル で表し、ま、1bitで6デシベルが表されて、96デシベルまでの大 きさの音を表現出来ます。 ATRACは120デシベルまで記録出来ます。 因みにレコードは波の大きさが音の大きさになりますので、その 波はレコードの溝のフレの大きさになります。隣の溝までフレを 大きく出来ないのがレコードの限界で80デシベルが精一杯です。 AACなどのTwinVQ方式は、音の波を1つずつ分解し、sinやcosの 波のような単純なものに分解し、これをsinの幾らとかの値で 記録します。これを「関数方式」と私は勝手に呼んでいます。 ATRACは現在、ATRAC3まであると思いますが、ATRAC2の時に TwinVQ方式も組み入れたハズです。ATRAC方式とTwinVQ方式は 親和性があります。ATRACは高音・中音・低音に分けたところが、 音を分解するTwinVQ方式に似ているのです。 因みにATRACはSONYの開発、TwinVQはNTT研究室の開発です。 デジタル音楽の圧縮技術は日本が世界をリードしています。