ラウドネスへの理解を深める

ラウドネスからは逃げられない

編集やコンポジットソフトウェアの発達、ビデオテープからファイルベースへの移行。この二大潮流により、映像の仕上げに掛かるコストが大幅に下がりました。この流れは、2010年頃から本格的になり、今では誰もが普通のことと考えています。この派生として、仕上げ工程だけではなく、撮影や企画、配信などにもコストを抑える方向性は広がり、製作者にとっては風通しの良い時代になっています。その一方で、仕上げまで製作者自らが責任を負う必要が出てきています。

自分で仕上げまで責任を持つフローは、当初は映像だけでした。しかし、世の中の流れはコンパクトな制作スタイルにシフトしており、すべてのパートを製作者が受け持つことが増えてきています。映像はなんとかなっても、音の方までとなると、これは困ったことになってきた。そう感じている方も少なくないでしょう。また、音だって映像と同様でなんとかなるさ、との楽観的に考えていることもあるでしょう。このような製作者が直面する音の仕上げでの壁の一つがラウドネス処理です。今やYouTubeでもラウドネス調整は必須で、これを雑にやると他のコンテンツに比べて音が小さいと、クレームの対象になります。

ラウドネスの「ものさし」は世界でたった一つ

ラウドネスについて調べると、「日本のテレビ向けのTR-B32」「YouTube基準」「ヨーロッパのEBU R128」など、さまざまな規格の名前を目にすると思います。そのため「それぞれ別の測り方があるの?」と混乱してしまうかもしれません。 結論から言うと、音の大きさを測る規格(ものさし)は「ITU-R BS.1770-4」という国際規格のたった一つだけです。 では、TR-B32やYouTubeの基準は何が違うのでしょうか。それは「ターゲットにしている目標値」が違うだけなのです。測り方は世界共通の「ITU-R BS.1770-4」を使い、テレビ局なら「-24に合わせよう」、YouTubeなら「-14に合わせよう」と、それぞれのプラットフォームが目指すゴールを設定しているだけなのです。日本の規格も海外の規格も、使っている計算式はまったく同じです。

LKFSとLUFSは同じもの?

ラウドネスの単位として「LKFS」と「LUFS」の2つを見かけることがあります。これも結論から言うと、まったく同じ値を表しています。 昔、周波数の単位で「サイクル毎秒(c/s)」と呼ばれていたものが、現在では「ヘルツ(Hz)」に統一されたのと同じような歴史的な背景による違いです。現在ではどちらで表記されていても「同じものさしで測った値」と考えて問題ありません。

ラウドネス値はどのように計算されているのか?

ラウドネスの測定基準(ITU-R BS.1770-4)は、ただ単に音の波の大きさを測っているわけではありません。「人間の耳にどう聞こえるか」を精密にシミュレーションしています。数式の意味を紐解くと、以下のような処理が行われています。

基本はRMS(実効値)

全体の音のレベルは、音のエネルギーの平均値である「RMS」という計算方法がベースになっています。

プリフィルター処理(人間の耳の再現)

人間の頭や耳の形による音の変化を補正し、さらに「人間が鈍感に感じる低音域」をカットします。これにより、機械的な数値ではなく、人間の聴覚に近い値を取得します。

0.691の引き算

計算の基準として「1kHz(厳密には997Hz)のシングルトーン」を使用します。しかし、上記のフィルター処理を通すと、この基準音が本来より「0.691 LU」高く計算されてしまいます。これを元の正しい値に戻すため、最後に計算結果から0.691をマイナスするという補正が行われています。

無音に引っ張られないための「ゲーティング」機能

映画などで、静かなシーンが長く続くことがありますよね。もし単純に全体の平均をとってしまうと、静かなシーンのせいで全体のラウドネス値が不当に下がってしまいます。 これを防ぐために「ゲーティング」と呼ばれる、一定以下の小さな音を計算から除外する(足切りする)仕組みが2段階で用意されています。

  1. 絶対ゲート(-70 LUFS以下):マイクのノイズや完全な無音など、極端に小さな音をまず計算から外します。
  2. 相対ゲート(暫定平均から-10 LU以下):1を行ったあとの平均値から見て、「相対的に小さすぎる音(会話の間の無音など)」をさらに除外します。

このゲーティングは、番組全体のラウドネス(Integrated Loudness)を測る時にだけ適用され、瞬間的な音の大きさを測る時には使用されません。

チャンネル数による値の違い

モノラル(ch1のみ)の音声を、ステレオ(ch1とch2)に振り分けて鳴らすと、ラウドネス値は大きくなります。これは、複数のスピーカーから音が出ることで、空間全体の音のエネルギー(音圧)が足し算されるからです。単純な平均値にはならない点に注意が必要です。

トゥルーピークと4倍オーバーサンプリング

ラウドネス規格に合わせる際、もう一つ絶対に守らなければならないのが「トゥルーピーク(True Peak)」の制限です。 デジタル音声は、音の波を「点」で記録しています(CDなら1秒間に44,100個の点)。通常、この「点」の最大値を見て音の大きさを判断しますが、実は点と点の間をアナログの滑らかな波に戻した時、点よりも高い山(ピーク)ができることがあります。これがトゥルーピークです。

この隠れたピークを見逃して音が割れる(クリップする)のを防ぐため、「4倍のオーバーサンプリング」という処理を行います。これは、点と点の間をさらに4倍細かく測定し直して、アナログに戻した時の本当のピーク(真の最大値)を見つけ出す技術です。ラウドネス調整では、全体の音量(LUFS)だけでなく、このトゥルーピーク(dBTP)が規格値を超えないように抑える必要があります。

ソフトウエアのラウドネス用語を解読する

DaVinci Resolveなどでラウドネスを測る際、いくつか専門用語が出てきます。それぞれの意味を整理しておきましょう。 それぞれのソフト/ハードによって、名称や対象時間などが異なるので、詳細はマニュアルで確認してください。

ショート (Short-term):直近「3秒間」の平均的なラウドネス値です。シーンごとの音量のばらつきを確認するのに使います。

ロング (Integrated / Long-term):動画の「最初から最後まで」の全体のラウドネス値です。各規格(YouTubeの-14LUFSなど)がターゲットにしているのは、基本的にこの値です。

レンジ (Loudness Range):全体の音の「大小の幅」を表します。数値が大きいほど、静かなシーンと大音量のシーンの差が激しいことを意味します。

ロング最大 (Max Long):測定中のある時点までのロング(全体平均)の最大値です。

レンジ最大 (Max Range):測定されたレンジ(大小の幅)の最大値です。

オートマチック調整機能の落とし穴

DaVinci Resolveなどの編集ソフトには、クリック一つで目標のLUFSに合わせてくれる「ノーマライズ(ラウドネス自動調整)」機能がついています。とても便利に見えますが、実はユーザーが期待しているような魔法の機能ではありません。 ノーマライズ機能は、音声全体のボリュームの「つまみ」を、そのまま丸ごと上げ下げして目標値に合わせているだけです。

つまり、「小さくて聞こえにくい声」と「うるさすぎる爆発音」のバランスの悪さは、そのまま音量が上下するだけで何も解決しません。 理想的な自動調整機能(高性能なプラグインなど)は、声の小さい部分は持ち上げ、うるさい部分は抑えるという複雑な処理をリアルタイムで行います。しかし、完全な自動化はプロの現場でも非常に難しいのが現実です。

【結論:おすすめの仕上げ方】

自動調整を過信せず、まずは手動で8割がた調整することが一番の近道です。

  1. BGMや効果音と、人の声のバランスを手動(ボリューム操作やコンプレッサーなど)でしっかり整える。この段階で、ターゲットラウドネスとトゥルーピークを目標に近づけておく必要があります。
  2. 全体が聞きやすくなった状態で、最後の仕上げとしてノーマライズ機能を使い、規格の数値(LUFSとトゥルーピーク)にピタリと合わせる。 このように「人間の耳で作ったバランス」を「機械の力で規格に押し込む」という2ステップを踏むことで、正確で聞きやすいプロクオリティの音声を作ることができます。

具体的に上記1の工程では、カット単位でのバラつきを抑えてからトラックごとにEQを掛け、レベルを上げる際に邪魔になる周波数帯域を削除しておきます。これに続いて、ダイナミクスでトゥルーピークを意識してターゲットラウドネスに近づけます。どうしても、トゥルーピークが目標値を超えてしまうような場合には、安全装置であるリミッターを使って、レベルを抑えておくことも有効です。