音質を考慮したDAISY製作

目次

1. 音質とは

「製品の音質」の定義をした研究者は多いが、その定義の仕方には共通点がある1

以下の3種類の定義は、20世紀の終わり頃に発表されたものだ。

製品音質
1つの製品に付随する音の適切さを記述するもの。対象となる音の各種聴覚特性についての総合的判断に由来する。それは、利用者の実際の認知的状態・情緒的状態において明らかな、製品に対して期待される聴覚的特徴の集合に関連して判断される。 (Jekosch and Blauert, 19962.)
音響品質
ある聴覚事象に対する各種要求が満たされる総合的な度合い。 (Genuit, 19963.)
音質
音質 (Sound Quality, SQ) は1つの製品の音に対する知覚的反応である。 その製品の音の容認性に対する、聞く人の反応を反映する。 容認性が高いほど、SQが高い。 (Lyon, 20004.)

上のどの定義にも共通する点は、音質が、

  1. 知覚に関連すること、そして、
  2. 特定の要求に照らし合わせた聴覚特性の総合的判断に依存すること

である。

2. 音質に影響を与える要素は、どうやって測定するか?

音質がどういうものから構成されるかということについて、決定的な説明は存在しない5

それでも、「1. 音質とは?」で紹介した定義を考慮すると、 音が発生してからその音質を特定するまでの間には、以下のような3つの段階が考えられる。

  1. 音の発生、
  2. 音の知覚、
  3. 聞く人の判断。

「1. 音の発生」は、物理的・工学的な性質として測定できる。録音の条件だけでなく、録音したものを再生する条件にも左右される。

「2. 音の知覚」は、音響心理学の観点から、どういう音を聞かせるとどのように聞こえるかを調べることができる。

「3. 聞く人の判断」は、心理学的な効果や法則に支配される。

録音製作は「1. 音の発生」のための準備段階でしかないので、音質の改善のために直接できることは無い。せいぜい、音質の評価を下げそうな要素をできるだけ取り除いておくという程度のことしかできない。

3. 録音製作で音質のためにできること

音質の評価を下げそうな要素をできるだけ取り除くために、録音製作者が実際に努力していることは、音の再現性を高めることだ。 つまり、生の音の物理的性質を、できるだけ取りこぼさずに記録することだ。

ただし、再現性が音質に直接関係しているわけではない。 再現性は物理的な性質に過ぎないが、音質の特定には、音響心理学や、心理学的効果や法則も関わってくるからだ。

再現性の低い録音は、生の音の物理的性質の一部を無視しているので、音質を下げないために必要かもしれない情報を、再生機に渡しそこねる可能性がある。

逆に、再現性の高い録音であれば、生の音声に関する可能な限り多くの情報を再生側に渡すのだから、再生した結果、音質が低いと評価されたとしても、それは再生側の問題であり、録音には責任がないということになる。

4. 再現性に影響する録音機器の特性

4.1. DAISY録音に使う機械

現在、日本でDAISY録音に使われている機器の組み合わせには、主に3種類の形態があると考えられる。 以下の図で、数字の1, 2, 3で色分けしている部分は、録音の再現性に影響する主な箇所である。

4.1.1. PLEXTALK DR-1で録音する

4.1.2. マイク、オーディオ・インターフェイス、パソコンを繋げて録音する

4.1.3. USBマイクをパソコンに繋げて録音する

4.1.4. 録音の再現性に影響する箇所

以上の経路の中で、録音の再現性に影響する主な箇所は、以下のところである。

  1. 「マイクで音をアナログの電気信号に変換する」ところ。
    • 音の成分のうち、アナログの電気信号に変換されない成分が多ければ、録音の再現性が下がる。
  2. 「ケーブルとコネクタを通して、アナログの電気信号を」次の機械に送るところ。
    • ケーブルやコネクタを通っていくアナログの電気信号に対して、周辺からの電気的なノイズが入る。 このノイズは、もともとマイクが受け取った音声とは関係ないので、これによって録音の再現性が落ちる。
  3. 「アナログの電気信号をデジタル化」するところ。
    • アナログの電気信号は連続的な情報を持つが、これが離散的な記号の列(デジタル情報)に変換される。 その離散値を取り出す頻度が特定の値より荒いと、録音の再現性が落ちる。
      4.1.24.1.3 の図の中で、番号3が2回出てくるのは、それぞれインターフェイスやUSBマイク内部でいったんデジタル化されるが、パソコン内部で更に再現性の落ちるデータに変換することは可能だからである。

4.2. 録音に使う機器の仕様

DAISY製作で実際に使われている機械の仕様を比較してみる。

4.2.1. マイクの仕様

マイクは音をアナログの電気信号に変換するが、その際に再現性に影響を与える仕様のうち、ここでは以下の2つの点に注目する。

周波数特性 (Frequency Response)
マイクの振動板に低音(低周波数)から高音(高周波数)まで一定の音圧を与えたときに、このマイクで拾える音の周波数の範囲。 範囲が広いほど再現性が高い。
感度 (Sensitivity)
マイクの振動板に特定の音圧を与えたときに出力される信号の振幅。 dBV という単位で表示する場合は負の数で表され、0に近いほど感度が高い。
DAISY製作で使われているマイクの仕様の例
型名 SHURE SM58 Blue Yeti
構造 ダイナミックマイク コンデンサマイク
周波数特性 50 Hz から 15 kHz 20 Hz から 20 kHz
感度 -56.0 dBV @ 1Pa -46.9 dBV @ 1Pa

Yeti の感度については仕様書の 4.5 mV/Pa (1kHz) から換算した。

この2つの機種を比較する限り、ダイナミックマイク SM58 よりもコンデンサマイク Yeti のほうが感度が高い、つまり再現性を下げる要素が少ない。

ただし、感度が高いということは、環境音や口中音などの要らない音も明瞭に録音されるということである。

USBマイクやオーディオ・インターフェイスには、 PAD (Passive Attenuation Device, 減衰器) を操作するスイッチや GAIN (増幅度)を調整するダイヤルが付いていることがある。 本来これらは、アナログ信号の大きさを機械の許容範囲内に収めるための仕組みだが、これを調整することによって要らない音が低減されることもある。

4.2.2. アナログの電気信号を伝える部分の仕様

USBマイクの場合、アナログの電気信号を伝える部分はマイク本体の内部で完結しているので、アナログの電気信号に対する電気的ノイズの問題は関係ない。

それに対して、 DR-1 やオーディオ・インターフェイスを使う場合は、この部分の仕様に注意する必要がある。 ここでは以下の点に注目する。

インピーダンス (Impedance)
交流回路内の電圧/電流比。 インピーダンスが大きいほど微細な信号を伝えられるが、 電気的ノイズも拾いやすくなる。 一般に、マイクの出力インピーダンスと、その接続先の入力インピーダンスが、以下のような組み合わせになるようにすれば、アナログの電気信号を伝える経路で失われる情報が少ない。
マイクの出力インピーダンス (Output Impedance)
接続先の機械の入力インピーダンスの数分の1から数十分の1であれば良い。
DR-1 や オーディオ・インターフェイスの入力インピーダンス (Input Impedance)
マイクの出力インピーダンスの数倍から数十倍であれば良い。
配線方式
アナログの電気信号を送るケーブルとコネクタの配線方式の違いにより、バランス方式(平衡、XLR)とアンバランス方式(不平衡)がある。 バランス方式には、周辺から回線に入ってくる電気的ノイズをキャンセルする仕組みがある。 アンバランス方式にはそういう仕組みがない。
入力感度
受け取ることができる入力信号レベルの範囲。 マイクの感度より高い仕様(よりゼロに近い値)であれば、マイクからの信号を漏らさずに受け取ることができる。
DAISY製作で使われている機器の組み合わせの例

DAISY製作で使われている DR-1 とマイク SHURE SM58 の組み合わせと、オーディオ・インターフェイス Roland UA-11-MK2 とマイク SHURE SM58 の組み合わせについて、わかる範囲で仕様を比較すると以下のようになる。

組み合わせ DR-1 + SHURE SM58 UA-11-MK2 + SHURE SM58
マイクの出力インピーダンス (O) 300 Ω 300 Ω
入力インピーダンス (I) 2.2kΩ 不明
上の2つの比 (I/O) 7.3 不明
配線方式 アンバランス アンバランス
マイクの感度 -56.0 dBV -56.0 dBV
入力感度 -55 dBV -47.22 dBV

UA-11-MK2 の入力感度については仕様書の -45 dBu から換算した。

UA-11-MK2 の仕様に不明な部分があるが、DR-1 と比較すると入力感度が高いので、マイクからの信号の損失がより少ない。

どちらの機器も配線方式がアンバランスなので、マイクからこれらの機器までの配線で電気的ノイズを拾いやすいという難点がある。

4.2.3. デジタル化の仕様

上記のいずれの方法で録音するにしても、アナログ電気信号はデジタル化されて記録される。

デジタル化の方法は PCM (Pulse-code modulation) という方式に従っている。 この方式によるデジタル情報の精密さを表す指標は以下の2つである。

サンプリング周波数 (Sampling rate, Hz)
アナログ信号1秒ぶんを区切る個数。サンプリング周波数を、元のアナログ信号の最大周波数の2倍より高くすると、元のアナログ信号を完全に再現できる(標本化定理)。2倍以下にすると再現性が落ちる。
ビット深度(Bit depth, 量子化ビット数 Quantization, bit)
各時点のアナログ信号の大きさを、どの程度細かく区別するかの度合い。 ビット深度が大きいほど、録音の再現性が高い。
サンプリング周波数と再現性の関係

サンプリング周波数については、以下のような定理が数学的に証明されている。

標本化定理 (Nyquist–Shannon sampling theorem)
元のアナログ信号が含む周波数成分のうちの最も高い周波数成分の2倍よりも、サンプリング周波数の方が高ければ、そのデジタル情報から元のアナログ信号を完全に再現できる。

人の話し声に含まれる主な周波数成分は、母音と子音で大きく異なる。 母音は 500 Hz から 1 kHz 前後の周波数成分が主体となる。 子音が含む周波数成分はもっと高く、高いものでは 5 kHz 付近の周波数成分が主体となる子音もある6

母音と子音を合わせた話し声に含まれる周波数成分の大部分は、およそ 100 Hz から10000 Hzの間に収まると言われている。 この範囲の音を完全に再現できるようにデジタル化するためには、 標本化定理によって、サンプリング周波数を 20000 Hz より高い値にすれば良い。

DAISY図書で要求される仕様のサンプリング周波数は 22050 Hz であり、話し声の録音としては妥当な仕様である。ただし 11025 Hz 以上の周波数成分が再現できないため、子音の音色が元のアナログ信号とは若干異なる。

サンプリング周波数の仕様は、音楽CDでは 44100 Hz, DVD では 48000 Hz という規定がある。これらのデジタル情報からはそれぞれ、周波数成分の最大値が 22050 Hz 未満、24000 Hz 未満のアナログ信号を完全に再現することができる。人間が聞こえる周波数の範囲は 20 Hz から 20000 Hz と言われている。アナログ信号のその範囲の周波数成分は、音楽CDや DVD の仕様なら完全に再現できることになる。

人の話し声の録音のサンプリング周波数による音色の違い

コンデンサマイク Blue Yeti を使ってサンプリング周波数 48000 Hz で録音した話し声の音声ファイルと、それを変換してサンプリング周波数を落とした音声ファイルを作成した。以下で聴き比べることができる。(イヤフォンやヘッドフォンを推奨。ブラウザで正常に再生できない場合はダウンロードして別のプレイヤーで再生してください。)

48000 Hz (ダウンロード)
44100 Hz (ダウンロード)
22050 Hz (ダウンロード)
11025 Hz (ダウンロード)
8000 Hz (ダウンロード)
ビット深度の数値

ビット深度が大きければ、より微細な大きさの区別を記録することができる。 しかし、人が録音を再生する環境には、どんなに静かであっても既に多くの環境音がある。聞く人の心臓の鼓動や息なども環境音である。その中で環境音より小さい音量変化が正確に再現できたとしても、聞いている人には認識できない。

一般的な再生環境では、ビット深度が 16 bit あれば十分な精度があると考えられる7

音楽データを制作する際には、元のデータにいろいろな細工を重ねるので、誤差の蓄積を防ぐために、ビット深度の大きいデータを編集する。 しかし、一般的なDAISY製作では、音声の順番の入れ替えをすることはあるが、エフェクトをかけるなどの細工をすることはほとんど無い。 そのため、録音時のビット深度を 16 bit より大きくしておく意味がない。

DAISY製作で使われている機器のデジタル化の仕様の例

DAISY製作で使われている DR-1、オーディオ・インターフェイス Roland UA-11-MK2、USBマイク Blue Yeti のデジタル化の仕様は、それぞれ以下のようになっている。

機器 DR-1 UA-11-MK2 Blue Yeti
サンプリング周波数 22050 Hz 44100 Hz, 48000 Hz 48000 Hz
ビット深度 16 bit 24 bit 16 bit

DAISY図書の録音ではサンプリング周波数 22050 Hz という仕様が要求されることが多いので、それより高いスペックの機器を使っても録音データのサンプリング周波数は 22050 Hz に落とされる。また PRS Pro で録音するとビット深度は 16 bit になる。結果的にDAISY録音では、どの機器を使ってもデジタル化の仕様が 16 bit 22050 Hz になる。

データ圧縮方式の仕様

録音デイジーのデータは、多くの場合 MP3 方式で圧縮されたものが利用者に届く。

PCM方式でデジタル化した音声データを MP3 方式で圧縮すると、元の情報を再現することはできない(非可逆圧縮)。 圧縮の程度の指標として、ビットレートがある。

ビットレート (Bitrate, bps)
アナログ信号1秒ぶんを記録するためのデジタル情報量。 ビットレートが大きいほど、圧縮の度合いが低く、失われる情報が少ない。

MP3方式では、人間の聴覚では再生音の劣化を感じにくいように調整してデータ圧縮することができる。それでもMP3方式は非可逆圧縮なので、圧縮を重ねれば再生音は劣化する。そのため、MP3方式での圧縮は、PCMデータの完成後に1回だけ行うことが望ましい。

データ圧縮の程度による音色の違い

話し声を 16 bit 22050 Hz で保存したPCMデータと、それをMP3方式のいくつかの可変ビットレートで圧縮した音声ファイルを作成した。以下で聴き比べることができる。(イヤフォンやヘッドフォンを推奨。ブラウザで正常に再生できない場合はダウンロードして別のプレイヤーで再生してください。)

16 bit, 22050 Hz (ダウンロード)
MP3圧縮 220-260 kbps (ダウンロード)
MP3圧縮 110-150 kbps (ダウンロード)
MP3圧縮 45-85 kbps (ダウンロード)

5. まとめ

音質についての評価は、再生機から音が発生し、人がそれを知覚し、特定の要求に照らし合わせて総合的に判断するまでの過程で形成される。知覚や心理の要素が関わるので、音質を物理的な指標だけで表すことはできない。

従って、音の発生の準備段階でしかない録音製作においては、録音データ自体について「音質」を議論することはできない。

録音製作の段階で、再生時の音質を下げないためにできることは、再現性を高めることである。録音データの質について評価するには、「再現性が高い」「再現性が低い」という表現が適切である。

それにも関わらず、「録音の音質」が良いとか悪いとかいう表現があるとすれば、それは言葉使いの間違いである。そういう表現が、実際には何を意味しているかということについては、次節で考察する。

6. おまけ:録音機器について流布している意見に関する考察

6.1. DR-1 と パソコン録音

「DR-1の録音図書はパソコン録音よりも音質が良い」という意見がある8

録音データの比較として表現されているので、実際に言いたいことは本来の意味での音質のことではない。

では、ここで言う「音質」とは、実際には何を指しているだろうか。

それぞれの録音データを同じ再生機で聞いた上での評価を表しているはずなので、パソコン録音のデータを聞いた際に不満な点があったはずである。

話し声の録音の再生音を聞いた上で不満になりうる点を列挙してみよう。

  1. ノイズが多い
  2. 音色が好みではない
  3. 発音が不明瞭である

1の、DR-1よりもパソコン録音のデータの方が「ノイズが多い」ということは起こり得る。なぜなら、パソコン録音ではDR-1よりも設定すべき点が多いので、機器の設定に関する知識がなければ、ノイズを減らす努力をせずに録音している可能性があるからである。

2の「音色が好みではない」ということは、マイク特性の違いによって起こり得るが、DR-1とパソコン録音との違いによって起こることは考えにくい。

ただし仮に、DR-1で使用するマイクにダイナミックマイクが多く、パソコン録音で使用するマイクにコンデンサマイクが多いという傾向があるならば、それらの音色が異なるということはあり得る。なぜなら、コンデンサマイクは高周波数成分の再現性も高いので、ダイナミックマイクの録音よりも音色が明るくなるからである。

人の好みによっては、高周波数成分が欠けて籠もった音になりがちなダイナミックマイクの録音の方が、落ち着いて優しい音であるとして、高い評価をするもしれない。

3の「発音が不明瞭である」ということは、サンプリング周波数が低すぎて子音の高周波数成分が欠けていたり、MP3方式で圧縮しすぎたりすると起こり得る。しかしこれはDR-1とパソコン録音との違いによって起こるとは考えにくい。

以上の推測に基づいて、パソコン録音で改善できそうな点は、ノイズが入りにくいように機器を正しく設定することだろう。

6.2. ダイナミックマイクとコンデンサマイク

「コンデンサマイクはダイナミックマイクより良くない」という意見がある。又聞きに過ぎないが、コンデンサマイクの録音状態が良くないという意味らしい。

ダイナミックマイクより再現性が高く、録音機器としては優れているコンデンサマイクに対して、このような嫌悪感がある理由は何だろうか。

推測できることの一つとして、コンデンサマイクはダイナミックマイクよりも再現性が高いために、機器の設定や録音環境を整えないと、背景ノイズが入りやすいということだ。

コンデンサマイクでも、機器を正しく設定して録音環境を整えれば、背景ノイズの少ない状態で、ダイナミックマイクよりも明瞭な子音を録音できる。

実際に2種類のマイクで同時に同じ発話を録音してみた。ただし、ダイナミックマイクの方は、USB接続ではない機種を使ったので、DAISY録音でよく使われるアンバランス方式の配線では電気的ノイズが入り過ぎてマイク自体の比較ができないため、バランス方式の配線に変更した。(イヤフォンやヘッドフォンを推奨。ブラウザで正常に再生できない場合はダウンロードして別のプレイヤーで再生してください。)

USBコンデンサマイク Blue Yeti, 16 bit 48000 Hz (ダウンロード)
ダイナミックマイク Sony F-V620, オーディオ・インターフェイス Focusrite Scarlett 4i4 Third generation, XLRケーブルで接続, 16 bit 48000 Hz (ダウンロード)

聴き比べると、音色が全体的に違うが、特に子音のSはコンデンサマイクの方がより明瞭に録音されている。ただ、人の聴力は高周波数帯域から衰えていくため、どちらも同じように聞こえる人も多いだろう。

また、DAISY録音ではサンプリング周波数を 22050 Hz にするという規定があるので、11025 Hz 以上の高周波数成分は再現できないため、せっかくのコンデンサマイクの高い再現性は、やや宝の持ち腐れという感もある。

上記の録音データからサンプリング周波数を 22050 Hz に下げたデータも作成してみた。(イヤフォンやヘッドフォンを推奨。ブラウザで正常に再生できない場合はダウンロードして別のプレイヤーで再生してください。)

USBコンデンサマイク Blue Yeti, 16 bit 22050 Hz (ダウンロード)
ダイナミックマイク Sony F-V620, オーディオ・インターフェイス Focusrite Scarlett 4i4 Third generation, XLRケーブルで接続, 16 bit 22050 Hz (ダウンロード)

音色に微妙な違いはあるが、全体としてどちらもほとんど同じように聞こえる。 結論として、サンプリング周波数を 22050 Hz に設定する限り、コンデンサマイクでもダイナミックマイクでも、マイク自体の違いによる録音データに大差はない。

コンデンサマイク嫌悪の理由として、もう一つ推測できることは、コンデンサマイクはダイナミックマイクよりも再現性が高いために、口中音も明瞭に録音されるということである。

口中音は話す人の技量によるところも大きいし、どの程度気にするかという点も人によって異なる。人によっては子音の明瞭さを犠牲にしても、口中音も不明瞭になるダイナミックマイクの方がマシだという判断をするかもしれない。

ただし、先程言及したように、ダイナミックマイクを使う場合でも、マイクとオーディオ・インターフェイスをつなぐ際にXLRケーブルを使わないと、電気的ノイズは入りやすい。

実際に配線方式を変え、それ以外は同じ条件にして2種類の録音をしてみた。(イヤフォンやヘッドフォンを推奨。ブラウザで正常に再生できない場合はダウンロードして別のプレイヤーで再生してください。)

アンバランス方式: ダイナミックマイク Sony F-V620, オーディオ・インターフェイス Roland UA-11-MK2 (ダウンロード)
バランス方式: ダイナミックマイク Sony F-V620, オーディオ・インターフェイス Focusrite Scarlett 4i4 Third generation, XLRケーブルで接続 (ダウンロード)

アンバランス方式で配線した場合、明らかに電気的ノイズが大きすぎる。ダイナミックマイクとしては高品質の録音ができるはずの Sony F-V620 が可哀想になるほどだ。

ダイナミックマイクを使うにしても、USB接続でない機種を使うなら、アナログ信号部分の配線方式としてバランス方式を採用するべきである。

なお、上記のアンバランス方式で使った Roland UA-11-MK2 は実際にDAISY図書の録音に使われているらしいが、この機種のドライバは Windows 11 に対応していないため、小細工が必要だった9

  1. Porter, N. D. and Berry, B. F.: A study of standard methods for measuring the sound quality of industrial products: final report. CIRA (EXT) 021, 1997. p. 5. 

  2. Jekosch, U. and Blauert, J.: A semiotic approach toward product sound quality. Proceedings of Internoise, 96, pp. 2283-2288. 1996. 

  3. Genuit, K.: Objective evaluation of acoustic quality based on a relative approach. Proceedings of Internoise, 96, pp. 3233-3238. 1996. 

  4. Lyon, R. H.: Designing for Product Sound Quality. Marcel Dekker Inc. New York, 2000. p. 8. 

  5. Cox, T.: Sound quality - making products sound better. Acoustics Research Centre, Salford Innovation Research Centre (SIRC), University of Salford, Manchester, 2018. (Archive)
    Page “An introduction to Sound Quality testing. Defining sound quality.” 

  6. Mannell, R.: Speech Spectra and Spectrograms. Macquarie University, 2008. (Archive) (Renewed Page: “Some consonant spectra. c. Fricatives.”)
    日本語の音声については、
    『言語について』 補聴器サービス, 2010.
    個人が趣味で公開している研究成果もある。
    Nakayama, T.: 『音声認識~周波数スペクトルで音素を判別』 2012. (Archive)
    「子音の音声認識」のページ。 

  7. Monty (Montgomery, C.): 24/192 Music Downloads …and why they make no sense. xiph, 2012.
    日本語での記事は
    「192kHz/24bitのハイレゾ無圧縮音源は本当に聴き分けられるものなのか?」, Gigazine, 2014. 

  8. 「全国音訳ボランティアネットワーク 2018 シンポジウム 聴講報告」, 2018.
    「2.2. 音訳者に求められる技術. 録音機器の操作技術」の項。 

  9. 小細工: Roland UA-11-MK2 を Windows 11 で使うためには、 Windows セキュリティ>デバイス・セキュリティ>メモリ整合性 をオフにして再起動する。 UA-11-MK2 を使わないときは、コントロールパネル>プログラム>プログラムと機能を開き、DUO-CAPTURE driver をアンインストールして再起動した上で、メモリ整合性をオンに戻しておくのを忘れないようにする。