一口でmp3といってもサンプリング周波数やビットレートを変化することができ、人の耳に「良い、悪い」の印象を与える。今回は言及していないが、圧縮以外にも色々な音に関連するパラメータを変更することにより印象は変化する。
可逆圧縮・非可逆圧縮
まず圧縮といっても画像や音声といったデータを圧縮する時の分類では大きくわけると、可逆圧縮と非可逆圧縮がある。漢字を読めば「可逆=逆が可能」「非可逆=逆が可能ではない」ということがわかるが、具体的にはどういう意味かは、少し解説が必要かも知れない。
まず可逆圧縮を説明しよう。これは圧縮する前の情報と、一旦圧縮し、それを戻した時の情報とがまったく同じものである、つまり1ビットたりとも違わないのが、可逆圧縮である。一方、情報を圧縮する時に、人間の目や耳であまり異差がないような情報を捨てて、圧縮の率をあげる、ただし圧縮前の情報と圧縮から戻した時の情報が異なるのが非可逆圧縮である。
日本では可逆圧縮とか非可逆圧縮という用語が使われるが、元々英語ではlossless data compressionとlossy data compressionと呼び、むしろ「ロスなし」「ロスあり」という方が理解し易いだろう。
mp3
mp3はMPEG-1もしくはMPEG-2 Audio Layer IIIの仕様に従ったデジタルオーディオの圧縮フォーマットで、規格的には可逆圧縮と非可逆圧縮の両方を持っている。しかし、普段、目に見る(耳で聴く?)は非可逆圧縮を行ったmp3である。
計算には修正離散コサイン変換を使っている。その過程で、圧縮するサイズに対してサンプリング周波数やビットレートにあわせて情報を捨てる。情報を捨てれば捨てるほど、再生時の音は劣化する。
実際のデータ圧縮をする前、それから圧縮を戻し再生する際には、色々なフィルタをかけて、なるべく聞きやすい、いわゆる人が聞いて「いい音」「違和感のない音」と思わせるような調整を行う。音の違いには色々なパラメータがあるが、ここでは、サンプリング周波数やビットレートのみに着目して話を進める。
mp3はサンプリング周波数は16kHzから48kHzまで選ぶことが出来る。この数が大きければ大きいほど音が良い。CDは44.1kHz、DVDのオーディオだと44.1kHzから192kHzである。むかしの電話音声は8kHzである。
ビットレートは8kbpsから320kbpsと幅が広い。毎秒使うビット量なので、ビット量が多いと、その分、多くの情報を用意出来るという意味になる。
適切なビットレートはどの値か、という議論は、あまり意味がない。そのユーザの持っている機材の能力以上の音質をもったビットレートを用意しても意味がないからだ。しかし、一方で、提供する側は、ユーザがどのような機材を使っているかはわからないので、良い音質で提供すべきだし、実際、かなりいいレベルで提供している。例えば最近ではAmazon.co.jp MP3ダウンロードストアのMP3がビットレート256 kbpsで販売している。これであれば多くのユーザが満足する音質であろう。
百聞は一見に如かず
さて、いくら数字をあげても、わからないだろうと思う。百聞は一見に如かずというが、一見ではなく、一聴してもらおう。
これがオリジナルのサウンドである。ちなみにデモしやすいように自分で打ち込んだ曲である。
original.mp3
サンプリング: 44100 Hz
ビットレート: 128 kbps
ファイルサイズ: 440.5KB
ファイル: original
さて次々とサンプリングとビットレートの値を下げて音を圧縮してみる。
64.mp3
サンプリング: 24000 Hz
ビットレート: 64 kbps
ファイルサイズ: 219.8KB
ファイル: 64
40.mp3
サンプリング: 16000 Hz
ビットレート: 40 kbps
ファイルサイズ: 137.3KB
ファイル: 40
32.mp3
サンプリング: 16000 Hz
ビットレート: 32 kbps
ファイルサイズ: 109.7KB
ファイル: 32
24.mp3
サンプリング: 8000 Hz
ビットレート: 24 kbps
ファイルサイズ: 82.5KB
ファイル: 24
16.mp3
サンプリング: 8000 Hz
ビットレート: 16 kbps
ファイルサイズ: 54.8KB
ファイル: 16
どのような違いがわかるだろうか。ここでは基本的にサンプリングとビットレートしか変化させていないので、圧縮をかけすぎると音飛びのように聞こえる現象がおこる。このような場合、事前にイコライザー(ハイパスフィルター・ローパスフィルター)を使い音の帯域を絞るなど一手間かけてから高い圧縮をかけるのだが、そのようなことをしていないのでノイズが発生している。音声のように限られた音域でも十分なものは音域を絞っている。G.711という音声信号の伝送の規格では、音域を300Hzから3.4kHzに絞り、サンプリング周波数が8kHz、ビットレートが64kbpsとしている。
まとめ
このように一口でmp3といってもサンプリング周波数やビットレートを変化することができ、人の耳に「良い、悪い」の印象を与える。今回は言及していないが、圧縮以外にも色々な音に関連するパラメータを変更することにより印象は変化する。
というわけで、このような非可逆圧縮のデジタルオーディオのフォーマットを複数持ってきて、パラメータなどを一切考慮せず比較し、フォーマットの違いで音がいいとか悪いとか議論するのはあまり意味がないということがわかって頂けたろうか。