サスペンス風に言えば「この時気がつくべきだったんです。これがあの大事件の発端だったことに……」
複数の録音機を使うと、距離差だけではなく、その個体ごとの演算方式の差によってズレが生じます。
(2023年8月1日更新)
- ■はじめにお断りしておくこと
- ■録音状況
- ■複数の録音機によるズレの理由
- ■デジタルも全て同じではない
- ■アナログ・デジタル変換(AD変換)
- ■どうなるか?
- ■どういう状況でズレが生じているか?
- ■プロはすごいよ
- ■追記。(2023年8月1日)異なる機器の録音を統一する復旧方法
■はじめにお断りしておくこと
この記事は位相ずれを合わせる方法、いわゆるアラインの話ではありません。
アマチュアが複数の異なるモデルの録音機を使って録音してしまったデータを手動で補正した作業後記です。(本来であれば同期クロックを使うべき状況です。)(機器によって「1秒」に誤差があるからです。)
この記事は、あくまでも専業エンジニアではない作曲家の書いた記事だということを忘れないでください。
理屈の正誤性、説明の妥当さについて意見がある人はご自身のブログで「正しいこと」を書いてください。
・アラインの話を少しだけ
単一の録音機で、それがマルチマイクにちゃんと対応している場合には、いわゆる「アライン作業」が発生します。
1つの発音体から距離が異なる複数のマイクを使った場合、音のスピード差によって遠くのマイクには遅れた音が録音されます。
このタイミング差を統一するのが「アライン(align)」という作業です。
この作業に特化したプラグインエフェクターも各社からリリースされています。align系、Auto-align系と呼ばれる特殊なエフェクターです。
ミックス手法は2つあります。
距離差を無くさないで録音状況を忠実に再現するミックス方法と、あえてアラインして距離差を無くし、波形の位相を揃える方法です。
一般的にはホール音響の場合にはズレを活かす前者。ドラム録音では迫力を出すために後者の方法が採用されます。
■録音状況
今回の録音状況はこういう感じだったらしい。
問:下の模式図から推測できるトラブルを挙げよ。
奏者の近くにクローズマイク2つ。(ステレオ)
遠くにエアー1つ。(ステレオ)
普通に考えれば「距離による遅延」「音場の広さの違い」「距離位相」なんだけど、なにしろ録音に関してはアマチュアの人が寄せ集めの機材で行ったものですから、非常に混迷しました。
■複数の録音機によるズレの理由
今回引き受けたアライン補正処理、最初に話を聞いた時はmp3とか独自形式への変換に伴う全体の遅延とか伸縮かな?と思って「データ貰えれば一瞬で治せるよ」と強気の発言をしてしまい、後の祭り、アフターフェスティバルでした。数分で終わるはずの作業がすべて手作業で6時間越え。
アナログテープ等では回転運動等によって物理的にズレが起きるのはイメージしやすいはずです。テープそのものが温度差等によって伸びてしまうというクソ要因もありますね。
デジタルレコーダーには運動体はありませんが、デジタル演算処理のさまざまな都合でズレが生じます。
詳しくは下リンク先。
デジタルの多くでは記録媒体
に慣性質量があっても無くても、エラー処理系やバッファーがあるため、スペクトラ
ムは全帯域または高域に偏る。
DTMの人的にわかりやすく言えば、リニアフェーズEQによるアタックタイミングの遅延と理屈は同じです。
■デジタルも全て同じではない
余談ですが、DAWによって音が違うとか、別のDAWで書き出したものを並べて逆相にしても音が消えないというのは、つまりDAWごとの演算が異なるからですよ、と言えば納得してもらえるんじゃないでしょうか。
デジタルデータを音に変換しているわけですから、データ上は同じでも出力時には異なるのは当然です。
そういうデジタル処理上の明確な理由があるので「DAWごとに音が異なる」というのはオカルトではありません。でも気にしたところでどうにもならないので気にしなくて良いです。
そういう「処理上どうしても起きる誤差」は宇宙望遠鏡の開発とかでもやってない限り誤差として無視して良いレベルの問題です。
なんでもオカルトだと言って否定することもまた非科学的だという視点を忘れてはいけません。
デジタル上の演算方法には、その計算方法、処理方法の違いによって誤差が起きます。プロセッサの設計によっても当然誤差が出ます。
たしかにデジタルは「0と1」なので間違いは起きませんが、その「0と1」はとてつもない量であることを忘れてはいけません。
■アナログ・デジタル変換(AD変換)
デジタル領域で同じ処理だったとしても、マイク部分はアナログです。それをデジタルデータに変換する際に違いが起きます。
また、マイクには個体差があります。
振動体が動いて、それを電気的な情報に変換するのがマイクです。
振動体は1つ1つ違う物で、この世に同じものは存在しません。モデルとロットが同じならほぼ同じですが、どうしても誤差が出ます。当たり前です。
マイクという入り口でまず誤差が起きていることを忘れてはいけません。
電気情報をデジタルに変換する際、さまざまな工夫がされています。これが機器の個性であり、音の違いです。アナログ情報をデジタルに変換するAD変換は、各社がしのぎを削っている重大なポイントです。
・デジタル計算の差
DTM界隈での議論ではこの点を完全に見落としている人がいるので非常にカオスなことになっています。「波形に逆相を当てれば消える」というのは理屈として正しいですが、別の演算機を通過したら当然違う波形になります。
DAW(の設定)によって演算が異なるので、同じ波形を異なるDAWで処理すれば違う波形になります。その片方を逆相にしても完全に消えないのは当然のことです。
デジタルのファイルコピーは確かに100%の複製です。
でも「オーディオ書き出し」は複製ではありません。処理結果です。
・デジタル録音は計算結果
で、録音も演算結果です。入ってきた音をそのまま記録できているわけではありません。
複数のマイクからの入力を同時に処理できるマルチマイクに対応できる高級な機材ならまだしも、複数の異なるモデルの録音機を設置して録音した場合には異なる記録データになるということです。
・カメラでも同じような問題がある
これはあくまでも比喩です。
カメラで言うと、レンズが違えば歪みが違うので、重ね合わせて合成加工しようとしても揃わないのと似てる、ということです。窓枠とか電柱、高層ビルなど、被写体は直線であるはずなのに、カメラで撮影すると少し丸くなります。
また、安っぽい3DCGでは直線が直線すぎて違和感があることを経験したことがあるはず。
人間の目もレンズだから歪んで見えてる。魚眼レンズは極端に歪む。
数学的には三点透視法は正しいんだけど、実際には距離と角度によって歪んで見えているべきだから、数学的に正しいパースでも違和感を感じることがあって当然。
蛇足を言うとすれば、非ユークリッド幾何学的に、地面は直線ではないです。
「地球は丸いので、地表面で90度を3回描くと三角形になりますよ」という話。
https://www.kyoto-su.ac.jp/project/st/images/st1701_03.jpg
北極点で90度。
赤道と垂直になるから90度。
赤道のどの位置からでも北極点は90度北。
3つの90度で三角形になる。
あれ?三角形の内角の総和は180度じゃないの?
初歩の数学(あるいは理論上の幾何学)常識が通じないんだけど、仕組みを考えてみれば「そりゃあ当然そうなるよね」と誰でも納得できる話。
音の処理でも同様のトンチめいた「あぁ、それなら納得」という現象があるよ、ということだけは知っておいて損は無いです。1つのシンプルな理屈だけで全てがうまくいくわけじゃないです。
----------
■どうなるか?
まずは準備。
録音の冒頭からチェックし、アタックの明確な音を見つける。
そこでタイミングを合わせる。リージョンも切っておくと作業が楽になる。
マイク距離による遅延が起きているのが正しいが、それは後で一括して行うべき。
この時点で頭合わせをしないと、常に一定の距離遅延を作れない。
あくまでも「仮縫い」で完全に一致させた方が作業がスムーズになる。
切る際には「ゼロクロスポイント」をオフにしておく。
ゼロクロスポイントがずれていると「プチ音」が入るので気をつける。
ステレオの両側がゼロクロスポイントに一致することはまずありません。
そもそもオフセット(ゼロを通過しないで上下に往復する)することも多く、上下に均一に「加工しやすい」揺れ方をしている波形は皆無です。
問題はここから。
頭合わせをしたからと言って、全て合っているとは限らない。
開始から約6分の位置。アタック位置が明らかにズレている。
「長時間録音による誤差の蓄積」もあって、大きくズレています。
群遅延はキック処理以外でも起きてるよ、ということです。
このズレは位相が悪い音になってるとか、そういうミクロの話じゃなくて、「ダダン!」という2回の打撃音が「ダダダン!」と3回に聞こえるレベルでズレています。
DTM的に言えば、「人間の耳はおおむね30ms以上になると分離した2つの音として感じるから、ショートディレイは20ms程度が妥当だよね」というハース効果の話に通じる。
で、この場面は20msどころじゃない。完全に音符が増えてしまっている。
冒頭で処理した通り、遠くのマイクも同じ距離遅延を無視したアタック位置にしたはずなのに、一見しただけでは不規則としか思えないズレが起きています。
こういうズレを1つ1つ合わせていく。
プチ防止のためにフェードイン、フェードアウト、クロスフェードで処理するのだが……
アタックそのものの位置でカットするより、少し手前の目立ちにくいポイントで長めにクロスフェードした方が被害が少ない。「長め」がどのくらいなのかはケースバイケース。
が、細切れにしすぎると加工の痕跡が目立つ音になってしまう。加工は損傷と同義です。
ほどほどに、最低限に。積極的に妥協する。ベターこそベスト。
■どういう状況でズレが生じているか?
上のように確認と作業をやっていると、均等に遅れていくわけでも、常に同じだけズレているわけでもないことが見えてくる。場所によって遅れ方が違うんです。理屈が分からないと完全にホラーです。
普通に考えれば、同じ発音体から出た空気の波でマイクが振動し、それをデータとして記録するから、発音体とマイクの距離、複数マイクの距離によるズレしか生じないはず。でも、事実、目の前にあるデータは遅れ方がバラバラという奇怪な状態になってる。
特に和太鼓の低音が強く入ってきた箇所で顕著にズレる。(多くのエンジニアは和太鼓が嫌い、なはずだ!)
低音+ズレ。
要するにリニアフェーズ問題と同じです。
1周期の長い(=低い)音が来ると、それの処理のために群遅延が生じる。群遅延についてはググってもどうせ意味がわからないだろうと思う。私も全然理解できてないけど、要するに処理が大変になり、あるいは予期しない処理が必要となり、結果として「記録データ上で遅れる」ということ。
設計やってる人なら対処を迫られるんだろうけど、末端ユーザーとしては「しかたない」「そういうもの」として受け止めるしかない。理屈を解説したところで解決策には至らないので、考えても意味がない。
・群遅延
この記事にある画像がDTMの人には分かりやすいんじゃないかと思う。
https://astamuse.com/ja/drawing/JP/030/98/203/A/000005.png
ゼロクロスからゼロクロスまでの1周期(半周期)を1つのまとまり(群)として処理をする。
マイクの特性や距離特性によって「群」がどこで周期を迎えるのかが当然変わってしまう。
位相や群遅延については音楽をやる上ではそれほど知る必要は無いんだけど、「位相のが起きる原因は群遅延によるものだよ」と知っておくだけで良い。要するに後からエフェクタでどうにかなるんじゃね?というわけで、こういう問題はDAWオペレートでは打つ手が無いとだけ知っておけば良い。
そこから先は設計者の戦場です。音楽家が考えても雑学にしかなりません。
こんなことを勉強してるヒマがあるなら和声の練習をしたり、オーディオサンプルの整理整頓でもした方が音楽的に役立つ。絶対。
学生時代や理系仕事の過程で位相についてガッツリ勉強してきているなら、その知識はDTMでも役立つけど、気まぐれな勉強方法で身につくものじゃないです。
もしDAWオペレート的に実験してみたいなら、リバーブ時のドライとウェットの波形を拡大してゼロクロスが一致しなくなるのを目で確認してみれば良い。
さまざまなデジタル処理はその周期単位で行われることが多いから、異なるモデルの機器(エフェクタ)を闇雲に使うと事故が起きるよということ。
・位相について、DTM的に知っておくべきことまとめ
eki-docomokirai.hatenablog.com
過去記事です。
音楽家の立場から見た位相の話を書いてあります。
非常にアクセスが多く、引用・転載の問い合わせもあった記事です。
■プロはすごいよ
ちゃんとしたスタッフが、ちゃんとした機材でデータ化してくれることの価値をみんなもっと理解するべきです。
機材だけ持っていれば綺麗なデジタルデータを作れるわけじゃないです。
ショボい機材を複数寄せ集めても、マルチマイク録音が行えるわけじゃないです。
高くて多機能高性能な機材には、ちゃんとその理由があるということです。
ハンパなものを買い集めてもあまり実用性が無いです。
で、「次回からはちゃんとホールの音響スタッフと相談した方が良い音で録れるよ!」とだけ伝えておきました。その予算が無いなら徹夜覚悟でこういう補正をし続けるしかありません。たとえやったとしても品質はお察しです。(低品質でも無いよりマシ!)
■追記。(2023年8月1日)異なる機器の録音を統一する復旧方法
データとして受け取らず、「同じ機器で再生したものを、同一の機器で録音」すれば、再生機器の固有差が発生しないので、問題を解決できます。
と、某R氏が2023年の雑談で突然教えてくれました。
ただし、固有の機器のクロックがあまりにも劣悪なものだとキツいかもしれません。