タイムドメインのスピーカーはなぜ音が良いのか」 第一部
― まず根本からお聞きします。由井さんにとっての「いい音の定義」は何ですか。 私にとってのいい音の定義は、「元の音が、そのまま出ること」です。 音というのは音波です。歌手が歌い、バンドが演奏すると、空中に音波が伝わります。その振動がマイクに入り、ミキシングなどを経て、CDに記録されます。そのCDが家庭で演奏されれば、音波はアンプを経由して最後にスピーカーから出てくるわけですが、このスピーカーから出る音(音波)が、最初に歌手やバンドが空中に発したのと同じ形の音波であればですね、これは「元の音が再現された」といえるわけですよ。 ― 従来のスピーカーからは、そういう「良い音」は出ないのですか。 出ません。
― なぜ断言できるのですか。他のスピーカーの技術者にも優秀な人はいるし、日々、研究開発の努力をしていると思うのですが。 他のスピーカーは、根本の理論・前提が間違っています。間違った前提の上で、いくら努力しても、成果は出ません。 こういうことをハッキリ言うから、私は元いた音響機器メーカーでは活動しにくくなって、こうして自分の会社を作ったわけです。ハッキリ言いすぎるので、オーディオマニアやオーディオ技術者からは嫌われるのですが、今日は「普通の音楽好きの方」が読者であるとのことなので、言いきっていくことにします。どんどんご質問ください。 ― 他のスピーカーは、どんな「間違った理論」を前提にして作られているのですか。 従来スピーカーがベースとする理論体系にはいろいろありますが、間違った理論の象徴的なところでは「フーリエ変換の適用」がそうでしょう。 ― 「フーリエ変換」って何ですか。 「あらゆるグラフは正弦波(sin)グラフの集合体で表現できる」という定理です。19世紀フランスのフーリエという数学者が発見しました。 ― すみません、ぜんぜん分かりません。 失礼しました。では、現実のスピーカーにたとえてお話しましょう。従来スピーカーで良いとされているものには、低音用ウーファー、中音用スコーカ、高音用ツイターなど三つのコーン紙がついています。ここから低音、中音、高音が別々に発せられます。 ― 低音は低音用ウーファー、高音は高音用の金属製ツイーターが担当する。音響特性ごとに再生装置を分けていて、いかにも良い音が出そうな気がします。 でも先ほど申しましたとおり、元の音波というのは一つなんですよ。なのに三つに分解して再生して、本当にいい音になるのかと思いませんか。
― え、音波って一つなんですか。しろうと感覚だと、たとえばギター、ベース、ドラム、ボーカルで演奏したときは音波が四つで、ボーカルだけだと音波が一つのような気がするのですが。 そう思う気持ちもわからないでもありませんが、錯覚です。どんなに楽器が多くても音波は一つです。人間の耳は優秀なので、一つの音波の中の、ギターやボーカルを明確に聞き分けます。でも空気分子の振動である音波自体は一つです。それが証拠に、大量の楽器が同時に音を出すオーケストラであっても、一本のマイクで録音が可能です。マイクには受信振動子(ふるえて音を記録する部分)は一個しかありません。 音がどんなに多彩に聞こえても、それは人間が聞き分けているだけで、音波というのは結局ひとつしかないといことは、ここでご認識ください。 ― わかりました。「音波はひとつ」ですね。では低音、中音、高音と再生部位が分かれているスピーカーですが、それの何がいけないのですか。分業していていいじゃないかとも思えるのですが。 三つのコーン紙から、低音、中音、高音が別々に出る。つまり音波が三つ出てきます。でも、それは、人間の耳に入ると合成されて一つの音に聞こえるわけです。 この仕組みは、いくつかの音波グラフは合成して、一つの音波グラフにまとめられるという理論前提の元に作っているのです。この理論前提がさっき言ったフーリエ変換です。フーリエ変換という数式を使えば、複数の音情報(空中の空気振動や、配線中の電気信号)などを一つの音情報に統一できます。 つまり、通常のオーディオは、一つの音波を、アンプの中やスピーカーの中で、高音、中音、低音などに分解して、またそれを一つにまとめられると考えています。たとえば、高音と中音にまたがるようなボーカルは、スピーカーの中で、高音部と中音部の二つに分かれて再生されます。 アンプにおいて高音だけ、あるいは低音だけの、強調や低減が可能なのも、このフーリエ変換の原理に基づいています。しかしですね…
はい、反対です。そりゃ数学の式の上では、グラフを三つに分けたり一つにまとめたりするのは、何回やっても正確にいくでしょう。でも現実の空気の振動や電気信号は、そんな数式通りにいきませんよ。人間のヴォーカルは、微妙の極みです。それを「高音だけ」強調したりしたら、ヘンな音になると考えるのが自然です。そもそもコーン紙が高音、中音、低音と三つあれば、それぞれの音は微妙に時間差をもって耳に届きます。それを合体させても元の音にはならないですよ。 わたしはこのことをよくミルクコーヒーのたとえで説明したりするんですけどね。 ― 何ですか、そのミルクコーヒーのたとえって。 ミルクコーヒーは、珈琲とミルクと砂糖で構成されているとします。従来のスピーカーは、人間の舌の上に、まず珈琲を載せて、次にミルクを載せて、次に砂糖を載せて、ハイ、ミルクコーヒーの味がするでしょうといっているようなものです。時間がちょっとずつずれたらヘンな味になるに決まっています。ミルクコーヒーの味はミルクコーヒーを丸ごといっぺんに舌に載せないとちゃんとした味になりません。 ― そのいっぺんに舌に載せるというのをやっているのがタイムドメインですか。 そうです。元の音がそのままいっぺんに耳に届きます。 ― フーリエ変換とか使ってないんですか。 フーリエ変換は使ってません。自分で考えたタイムドメイン理論を使っています。
― タイムドメイン理論を説明してください。 一つの音波をインパルスの積分として解釈します。従来オーディオが周波数領域に着目しているのに対し、こちらは音波グラフのX軸の時間領域に着目しているので、これをタイムドメイン理論と呼んでおります。 ― すみません、話が難しくてぜんぜんわかりません。とにかく「元の音波、一つの音波を、高音、中音、低音に分けたりせず、そのまま一つの音波として扱うやり方」と思えば良いですか。 はい、大きくはそれでけっこうです。 ― ここまでの話をまとめると、「良い音とは、『元の音』である。良いオーディオとは、その『元の音の音波』を、同じ形の音波としてスピーカーから出せるオーディオのことである。それを実現するには、フーリエ変換ではなく、タイムドメイン理論が必要である。タイムドメイン・スピーカーが音が良いのは、前提としている理論が根本的に優秀だから」となるでしょうか。 はい、だいたい合ってます。 ― ということは、フーリエ変換の理屈に基づく他のオーディオはぜんぶダメですか。 「ぜんぶダメ」というのも強烈な言葉ですが、まあ、前提理論は間違っていると、私としては考えております。 ― 世の中には、何十万、何百万円の高級アンプや高級スピーカーがあります。いい音を求め、それら製品にお金をつぎこんでいるオーディオマニアもごまんといます。そうしたマニアの努力も「前提が間違っているからダメだ」と。 私の考えでは、従来のオーディオ技術というのは、ある種、「化粧の技術」なんですね。間違った理論に基づいて、間違った設計をしているので、いい音が出ない。それを補うべく、高音やら中音やらを強調してみたり、低音がドンドコ出るようにウーファーを大きくしてみたり、工夫をするわけですね。つまり元の音に、化粧を施して、「自分好みの音」を作り上げます。化粧には精巧な技術が必要ですから、高級製品になると何十万円、何百万円するわけです。 「自分好みに化粧した音」を良い音と定義するなら、その努力は間違っていません。 ただ私としては、優れた音楽家が演奏する素晴らしい演奏は、最初から「いい音」なので、妙な化粧など施さず、そのまま再生するのが一番だと考えます。最初の音を、いじくらず、そのまま再生するのを良しとするオーディオ技術、それがタイムドメイン理論です。
― オーディオの「化粧」の具体的な例を教えてください。 聞いた話ですが、最近のヒット曲の最終ミキシングは、CDラジカセで再生して行うのだとか。ユーザーに最も普及している再生機、ラジカセのスピーカーでも、音が派手に聞こえるようミキシングするわけですね。これなどまさに「原音への化粧」でしょう。 私が少年だった頃に体験した「蓄音機の音」も同様に「化粧した音」でした。 当時、音が出る機械は、シャカシャカ鳴るラジオだけでした。そこに「蓄音機」なるものが現れた。近所のお金持ちの家で聞かせてもらったら、低音がボンボン出ています。すごいな、さすがは蓄音機と、子供だった私は感心しました。でも大きくなって技術者になって分かったことは、それは蓄音機の再生能力が凄かったのじゃなくて、単に内部で低音を強調して高音をカットしていただけだったということでした。低音強調の「化粧」をやっていたのです。
― もしや最近流行りの「重低音」も音の化粧ですか。 はい、そうです。「ウーファーがブルブル震えて、音圧が肌で体感できるような重低音再生」、あれも音への人工装飾です。ウーファーがブルブル震えていると、いかにも低音が良く出ているような視覚イメージがありますし、お客さんにも受けますからね。だからメーカーは、そういう作りにするわけですが、実際にはウーファーがブルブル震えることと、良い低音が再生できることに、相関関係は【まったく】ありません。 なぜならブルブル震える、目に見えるほどの振動からは音響は発生しないからです。人間の耳に聞こえる最も低い音は20ヘルツです。20ヘルツというのは一秒間に20秒震えることです。1秒に20回の震えというのは、とても目には見えません。大きなウーファーがブルブル震えているのは、ムダに空気を揺らしているだけで、音には関係ありません。 とはいえ「オレはスピーカーが空気を揺らす音圧を感じたい。大音量で床がビリビリ震えるぐらいでないと、音楽を聴いている気がしないんだ」と言われれば、それは好みの問題なので、何もいえませんが。 繰り返し申しますと、タイムドメインは「最初の元の音が良い音」という価値観で作っています。スピーカーが空気を揺らすのは、元の音とは関係ない、「加工」です。そうした「加工的な音響」を好む人にはタイムドメインは向いていません。
― タイムドメインに向いていない「加工品の音」とは具体的には? 先ほど述べた「蓄音機用の音」、「CDラジカセ用の音」は、加工品の音です。 また「ヘビイメタル」も、基本的にはスピーカーでの大音量再生を想定して録音している加工品の音です。 シンセサイザーは加工音の代表です。しかしシンセサイザーの音、たとえば昔のYMOの音などは、従来オーディオで聞いても、タイムドメインで聞いても、それほど差はありません。これは、シンセサイザーの音が、人間の声や楽器の音に比べて、情報量が著しく少ない単純な音だからです。 加工品の音として意外な所では、昔は「いい録音」とされていたグラモフォンのマイク70本録音方式があります。 ― なんですか。そのマイク70本録音方式とは? 昔、グラモフォンというレコードレーベルがあって、「オーケストラの演奏を70本のマイクで録音する」というのをウリにしていました。ヴァイオリンやらチェロやら各楽器の前に、一本ずつマイクを立てて、楽器ひとつひとつを録音するのです。「楽器ひとつひとつの音がハッキリ聞こえる」という売り文句でした。 グラモフォン方式は、従来のオーディオにとっては良い録音方式です。従来の、いろんな楽器の音がまぜこぜに再生されがちなオーディオなら、楽器前に一本一本マイクを立てる方式なら、各楽器はハッキリ聞こえます。 でも、この録音方式は、タイムドメインで再生すると、かえって気持ち悪い音になります。マイクが70本あるということは、たとえば一個のバイオリンの音が70本のマイクに入るわけで、その音をもし忠実に再現したら、けっこう気色の悪い音です。
元の音、生の音を再現するのがタイムドメインです。変な加工をしていない音源なら、どんなものでもいい音になりますよ。中でも人間の声、楽器の音など生音(なまおと)は、シンセサイザーなど電子音に比べ、情報量が多いので、タイムドメインでの再生にたいへん向いています。 これ、私の好きなレコード。戦後すぐに進駐軍に配給されていたジャズボーカルのレコードです。これをね、Yoshii9で再生すると、どうしてこんな昔のレコードからこんないい音がするのかと、みなさん驚くんですよ。昔のレコードをタイムドメインで再生してみてください。思いがけずいい音がします。ぜひ試してください。 ところで、このレコードね、裏に書いてある言葉も、わたし、気に入っています。
※ 取材日時 2009年12月 ※ 取材制作:カスタマワイズ |