これまでは情報量が増えるぶんには損はないだろうと考えて曖昧にハイレゾ音源を受け入れていたが、今後はできる限りCD音源で入手するようにしたい。仮に入手可能な音源がハイレゾしかない場合は44.1kHzにダウンサンプリングしてすべてCD音質相当に揃える。この運用方針には僕のリスニング環境が関係している。なお、本エントリはむっちゃ長いので一番下の項の「まとめ」だけを読んで済ませても構わない。
なぜミキサーを迂回しなければいけないのか
Windowsにはオーディオエンジンなる内部ミキサーが実装されている。かつてカーネルミキサーと呼ばれていたそれは、意図せずともわれわれが複数のアプリケーションから音を出そうとした時に機能を働かせる。だから動画を視聴している最中にもシステム音が鳴るし、ボイスチャットをしながらでもゲームの音が聞こえる。その代わりに犠牲となったのが音質と応答速度である。
というのも複数のアプリケーションの出音を自然に鳴らすには、それぞれの音量を一定値以内に抑えなければならないからだ。また、ビデオ音声のサンプリング周波数は48kHzであることが多いのに対し、音楽は元がCD音源なら44.1kHzなので、同時に鳴らすにはリサンプリングを施す必要がある。Windows側で予め設定されたサンプリング周波数に基づいて補正をかけるのだ。とりわけこの補正処理は極めて出来が悪いことで知られている。
これは単に音質が悪くなるのみならず、すべての入出力音声が若干遅れて届くという点で音楽制作に致命的な支障をもたらした。オーディオ業界はこの問題に対処すべく、カーネルミキサーを迂回して直接デバイスから音を出させるためのドライバ作りを行った。結果、STEINBERG社のASIO(Audio Stream Input Output) 規格が市場に広まり、あらゆるオーディオインターフェイスがASIO出力に対応するようになった。本来は低遅延の音声収録やマルチチャンネル入力に主眼を置いたドライバであったが、オーディオマニアたちも悪しきカーネルミキサーを迂回できたおかげで副次的に恩恵を受けたのだ。
Appleは2000年頃にいち早く同等の機能(Core Audio)をmacOSに組み込んだが、一方のMicrosoftはずいぶん対応が遅く、2006年にWindows Vistaをリリースするまでサウンド周りにほとんど手を付けなかった。ASIOがWindows向けのオーディオデバイスでデファクトスタンダードの地位を占めるには十分すぎる時間だったと言える。2022年現在の今でもWindowsのWASAPI排他モードではなくあえてASIOを用いる者が多い。
当然、Linuxの世界にも同様の動きが波及していった。まずESDなるサウンドサーバが登場し、後にPulseAudioがこれを置き換えた。しかしこれらはカーネルミキサーと同じくサウンドミキシングを主な目的としていたので、ASIOのような低遅延・高音質を実現する別のサウンドサーバも改めて開発された。それがJACK Audio Connection Kitである。実際の操作にはもっぱらGUIフロントエンドのQjackCtlが用いられている。およそLinuxで音楽制作やピュアオーディオを嗜む者でこのソフトウェアを知らない者はいないだろう。
僕はLinuxユーザなのでJACKを使っている。PulseAudioとJACKを協調させるプラグインを使わない限り、JACKが実行されている間はミキサーを迂回するため、対応する一つのアプリケーションからしか音は出ない。僕はリスニング用途なので、この場合の「対応する一つのアプリケーション」とは音楽プレイヤーを指す。そして、その際のサンプリング周波数はJACKとアプリケーション側で必ず一致していなければならない。 JACKの設定でサンプリング周波数を44.1kHzと決めたら、音楽プレイヤーが再生する音も44.1kHzでなければいけないのだ。
44.1kHzとはCD音源のサンプリング周波数である。mp3などの圧縮音源であっても元がCD音源ならサンプリング周波数は44.1kHzとなる。他方、ハイレゾと呼ばれる音源の規格は48kHzや96kHzだったりする。音が良いとか悪いとか以前に、こういう音源がプレイリストに混在していると非常に面倒くさい。工夫なく再生しようとすると、ハイレゾ音源にさしかかるたびにJACKの設定をいちいち切り替える必要があるからだ。むろん、そんなしょうもない真似を本当にやる人はいないだろう。よって、より現実的な処置を以下から選ぶことになる。
1)JACK側のサンプリング周波数を大きく設定し、それに満たない音源をアップサンプリングする。
2)ハイレゾ音源を44.1kHzにダウンサンプリングする。
おそらく大半のオーディオマニアは前者を選んでいると思われる。たとえCPUパワーとアルゴリズムでごまかした補完に過ぎないとしても、元々あった情報量を削るよりは心象的に悪くない。Windowsのカーネルミキサーで使われていたリサンプラとは異なり、現在の主流であるSoXリサンプラは評判にも優れている。実際、僕もこれまではそうしていた。だが、今は後者を選んでいる。どうせ聴き取れもしない高周波音のためにあれこれ気を遣うのがなんだか馬鹿らしくなってきたからだ。ていうか諸君ら、ハイレゾ音源の高周波音、マジで聴こえてる?
その音、マイクに入ってないよ
人間の可聴域がおよそ20Hz〜20kHzの範囲に収まることはよく知られた事実だ。CD音源の規格が44.1kHzと可聴域の約2倍の値になっている理由は、元のアナログ波形を正しく復元するには2倍のサンプル数を要するという「標本化定理」の理論に基づいているためである。(超詳しいソース)ジャスト40kHzではなく微妙に余裕が設けられているのは、当時の映像信号の規格(NTSCおよびPAL)との相性を考慮したとの説が有力視されている。つまりCD音源は既に人間のスペックを上回っている――これに対しハイレゾを推すメーカー側は、耳で聴き取れなくても身体は超音波を感じ取っている(ハイパーソニック・エフェクト)だとか、可聴域外の音が可聴域の音に影響を与えているといった理屈で応戦してきた。
これらの理屈はあからさまに非科学的とは言えない。ハイパーソニック・エフェクトはかなり確度の高い実証結果を得ているし、後者に関しても音波が互いに干渉し合う性質を考えればありえない話ではない。高周波音がマイクに入ってさえいれば。 われわれが日頃使っているイヤホンやヘッドフォンに再生可能周波数があるように、音を収録するマイクにも周波数特性があるのだ。
かつてマイクの周波数特性は人間の可聴域に合わせられて作られてきた。それより高すぎたり低すぎる周波数の音は、まったく拾えないわけではないが大部分が取りこぼされている。途中まではなだらかなのに20kHzを越えた途端にだらんと垂れ下がるような波形を想像してほしい。それが伝統的なマイクの特性なのだ。ただでさえ人間には聴き取れないとされる周波数の音が、さらに取りこぼされている――この事実を以てなお、ハイレゾ音源の優位性を主張するのはだいぶ無理があるように思う。
むろん、ハイレゾ対応のマイクは今日では多数存在している。主要メーカー各社の製品情報を調べてみると、2010年前後を境に出回りはじめたようだ。その手のマイクを用いて収録された音源に限っては、ハイレゾ音源の優位性を認めうる余地が生まれてくる。逆に言えば10年以上昔の音源や、保守的な設備で収録された音源に関しては、デジタルデータの形式がハイレゾであっても本質的にはハイレゾではないかもしれない……という話になってしまう。 昔懐かしの名曲、BeatlesやQueenのような歴史的ロックバンド、Jazzの名盤といったコンテンツは、残念ながら本当の意味ではハイレゾになりようがないのである。
ダイナミックレンジの細かい話
音源のデータにはしばしばサンプリング周波数と並んで16bitだとか24bitといった値が併記されている。これはいわゆるダイナミックレンジ――音の強弱の細かさを表す指標だが――16bitなら$2^{16}$、すなわち65536段階で音の強弱を表現できることになる。同様に24bitなら16777216段階となる。デシベル単位に直すと16bitは96dB、24bitは144dBと表せる。
人間は120dBまでのダイナミックレンジを認識できるとされているので、素直に捉えるとCD音質はやはり性能不足なのかもしれない。事実、ハイレゾ音源の宣伝文句にはダイナミックレンジの話もよく出てくる。ところが、ここにも2つの落とし穴がある。1つは、たとえ可聴域であっても96dBを越える音量はもはや騒音でしかないという点だ。人間が心地よいと感じられる音量は理論上の上限よりもずっと低い。よほどの物好きでなければジェット機が鳴らす轟音の中で針の落ちる音を日常的に聴きたいとは思わないだろう。
2つ目はマスターテープそのものの問題だ。アナログ媒体だから無段階かと思いきやノイズと音の比率、つまりS/N値で有効なダイナミックレンジを求めることができる。実のところ、マスタリング用のオープンリールテープでさえ60dBしかない。これを24bitにハイレゾ化するとして、一体どうやったら144dBものダイナミックレンジを得られるのか、調べてみたが専門的すぎて僕にはちょっとよく解らなかった。精神衛生上、人間のスペックを満たした規格を採用することは確かに好ましい。BeatlesのリマスターUSB BOXも24bit音源だ。だが、そのダイナミックレンジをわれわれが真に体感できているかといえば……正直、かなり疑わしいと言わざるをえない。
本当に違って聴こえる場合
おそらくそれ自体は正しい。 だが、ハイレゾだからではない。マスタリングの品質に差があるせいだ。CDが登場して間もない頃、アナログレコード愛好家たちはこぞってその音質をメタクソにこき下ろした。昔のCDは本当に出来が悪かったのだ。 技術的蓄積がない状態でのマスタリング作業は、現在の水準からすれば相当な不備があったとうかがえる。
現にQueenのCDなどは、新しいアルバムが出るたびに前より音が良くなったと評されている始末だ。かくいう僕も最近ようやく40周年記念のリマスター音源を入手して、あまりの音の良さにびびり散らかしてしまった。その音源がたまたま96kHz/24bitの規格だったために、当初はハイレゾゆえの高音質かと勘違いしたほどだ。しかし44.1kHzにダウンサンプリングしても聴感上の違いがまったく感じられなかったので、今こうして確信を持って消極的ハイレゾ不要論を書いていられるというわけだ。
一部のレーベルには音圧重視のひどい音作り(いわゆる海苔音源)で曲を販売しておきながら、後でまともにマスタリングし直したハイレゾ音源をリリースするなどというひどい商売をやっているところもある。レーベルの関係上、特にアニメソングに多く見られる。従来のCD音源をアップサンプリングしただけの代物をハイレゾと称して高値で売る悪質なレーベルや配信サイトも少なからずあり、ハイレゾ音源規格の登場から10年以上経った今でも玉石混合の状態が続いている。
もちろん、ハイレゾ音源の配信自体は決して悪ではない。マスタリング作業中、実用的な目的で高いサンプリング周波数のまま音楽データを扱うことは珍しくない。通常、CDでリリースする際にこれらは44.1kHzにダウンサンプリングされるが、そういった変換を伴わないデジタル配信で元のデータをそのまま利用することは十分に考えられる。
例えば、僕が最近買ったナナヲアカリのディスコミュ星人(2022 ver.)はその好例だ。CDでのリリースがないデジタル配信限定の音楽なので、マスタリング作業の際に用いられていたであろう48kHz/24bitの状態で販売されている。言うまでもなく、44.1kHz/16bitに直したものと聴き比べても違いはまったく判らなかった。もしハイレゾ音源対応を謳うつもりだったのなら、アップサンプリングをしてでも96kHzでリリースしたはずだ。
先に述べた通り、音声収録の段階からハイレゾを意識した曲も確かに存在する。そのような誠意ある音作りが広まっていけばハイレゾ音源の普及もあながちありえなくはない。Apple MusicやAmazon Music HDでハイレゾ音源に慣れた若者がそれを所有したいと思った時、彼らが買うのはCDではなくたぶんダウンロード販売のデジタルデータなのだろうし。
LDACでハイレゾは聴けるが完全には聴けていない
LDACは現在もっとも高性能な音声圧縮コーデックだ。96kHz/24bitのサンプリング周波数に対応していることから、しばしばハイレゾ音源に適した規格として宣伝されている。ところが、LDACの伝送ビットレートは最大でもわずか990kbpsに留まり、ハイレゾはおろかCD音源の理論値(1411.2kbps)さえカバーしきれていない。すなわち、LDACで処理された音源は競合他社のコーデックほどではないにせよかなり劣化してしまっているということになる。
一方、昨年9月にQualcommが発表した新音声コーデックaptX Losslessは、44.1kHz/16bitのCD音源までなら完全なロスレス転送に対応するらしい。このコーデックに対応した製品が普及するのにもぼちぼち時間がかかるだろうから、4000kbps以上ものビットレートを有するハイレゾ音源を劣化なしで伝送できる日は当面来ないと思われる。真剣にハイレゾと向き合いたいのなら有線の対応イヤホンかヘッドフォンに買い換える方が手っ取り早い。
まとめ
・ハイレゾに対応していないマイクで収録された音源をハイレゾ化する意義は薄い。
・下手なハイレゾより丁寧なマスタリングの方がはるかに効果的。
・理想的な条件で制作されたハイレゾ音源なら違いを聴き取れる可能性がある。
以上の理由から僕は消極的ハイレゾ不要論者になることにした。ハイレゾ音源を売るも聴くも所詮は人の勝手だ。ハイレゾ対応を謳う音響機器が売れてオーディオ業界が盛り上がるのなら、それはそれで良いことには違いない。だが、少なくとも僕はCD音源の音質に不足を感じた覚えはない。手持ちのD/Aコンバータは最大で192kHz/32bitの規格に対応していて、ヘッドフォンの方もとんでもない値の高周波を鳴らせるそうだが、僕の耳にそれが届く気はしない。
きっといつかは蛇口をひねったら出てくる水道水みたいに、どんな音楽もどばどばとハイ・レゾリューションで耳に入るようになるのだろう。音楽の個人所有という概念が消えてなくなり、巷にはハイレゾ音源があふれかえる。そうなるまでは、僕は44.1kHzで十分かな。