Suno AI WAV出力におけるステレオ成分の品質劣化に関する技術検証レポート

1. エグゼクティブサマリー

Suno AIのWAVミックスダウン出力に対してMid/Side（M/S）デコードを実施し、Side成分（ステレオ差分情報）のスペクトル特性を分析した結果、5kHz以上の帯域で著しいエネルギー減衰が確認された。この減衰パターンはSuno出力の全サンプルに共通して観測され、従来のDAWワークフローによる制作物には見られなかった。

減衰量は1–5kHz帯と15kHz以上の帯域間で38.6〜42.2 dBのロールオフを示し、これはMP3 128kbps（ジョイントステレオ）の挙動と類似する。一方、同じ楽曲をSunoのStudio機能でステム分離した場合、この劣化は観測されない。

本レポートでは、この現象の技術的原因として2つの可能性を提示する：ニューラルオーディオコーデックの構造的特性（事実に基づく推定）、および意図的なフィンガープリント埋め込み（状況証拠に基づく考察）。後者については、2025年11月のWarner Music Group提携前後でノイズが顕著になったという時系列的相関が存在する。

2. 検証方法

2.1 検証素材

ID	ソース	説明
suno_01	Suno AI ミックス出力	Electro Rock × J-Pop、コーラス区間、36秒
suno_02	Suno AI ミックス出力	別楽曲、密なアレンジ区間、36秒
suno_03	Suno AI ミックス出力	別楽曲、フルバンド区間、36秒
original_01	従来DAW制作物	マスタリング済みステレオミックス、36秒
original_02	従来DAW制作物	プリマスターステレオミックス、36秒

全ファイル共通仕様：48kHz / 24bit / Stereo WAV

2.2 解析手法

M/Sデコード: L/Rチャンネルから Mid = (L+R)/2, Side = (L-R)/2 を算出
RMSレベル計測: Mid/Side各チャンネルのピークおよびRMS値をdBFSで計測
帯域別エネルギー分析: 8帯域（20Hz–20kHz）に分割し、Side成分のエネルギー分布を比較
スペクトルロールオフ計測: 1–5kHz帯と15kHz以上の帯域間のエネルギー差を算出
ステレオ幅比率: Side/Mid RMS比をdBで算出

解析は全てPython（NumPy + SciPy + SoundFile）で実施。中央10秒間の区間に対しHanning窓付きFFTを適用。

3. 計測結果

注記: 本セクションの数値は全て客観的計測値であり、解釈を含まない。

3.1 ステレオ幅（Side/Mid RMS比）

サンプル	Side/Mid比	分類
suno_01	-11.69 dB	Suno出力
suno_02	-14.08 dB	Suno出力
suno_03	-11.49 dB	Suno出力
original_01	-6.58 dB	DAW制作物
original_02	-2.26 dB	DAW制作物
mp3_128	-6.57 dB	MP3 128kbps参照

Suno出力のSide成分は、従来制作物と比較して5〜12 dB低い。

重要な発見: MP3 128kbpsはロールオフが48.1 dBと急峻だが、ステレオ幅（Side/Mid比: -6.57 dB）は原音とほぼ同一に保持される。Suno出力はロールオフと同時にSide全体のエネルギーが低下しており、MP3のジョイントステレオとは異なる劣化構造を示す。

ステレオ幅比較

3.2 Side成分のスペクトルロールオフ

サンプル	Sideロールオフ	Midロールオフ	差分（Side − Mid）
suno_01	42.2 dB	53.1 dB	-10.9 dB
suno_02	38.6 dB	39.6 dB	-1.0 dB
suno_03	41.7 dB	39.7 dB	+2.0 dB
original_01	17.9 dB	19.9 dB	-2.0 dB
original_02	32.4 dB	25.0 dB	+7.4 dB
mp3_128	48.1 dB	50.6 dB	-2.5 dB

ロールオフ比較

3.3 Side成分の帯域別エネルギー (dB)

帯域	suno_01	suno_02	suno_03	original_01	original_02	mp3_128
20–80 Hz	27.6	24.9	30.6	27.2	35.6	28.4
80–300 Hz	32.4	27.4	34.3	49.2	41.3	48.8
300–1k Hz	35.7	26.2	33.8	44.9	36.6	44.4
1–3k Hz	29.9	26.3	30.0	38.9	31.8	38.5
3–5k Hz	22.2	24.1	23.7	33.5	27.0	33.3
5–8k Hz	11.8	18.4	15.4	28.7	19.4	28.5
8–12k Hz	11.4	14.9	6.0	22.7	17.4	22.4
12–20k Hz	2.5	8.5	-2.0	15.8	11.9	13.8

帯域別エネルギー比較

3.4 パイプライン比較：同一楽曲の3段階出力【事実】

同一楽曲に対し、3つの出力経路で比較を実施した：

出力経路	Side/Mid比	Sideロールオフ	5-8kHz	8-12kHz	12-20kHz
① ポン出しミックス	-19.30 dB	35.7 dB	2.4 dB	-1.4 dB	-8.1 dB
② ステム分離→再ミックス	-17.27 dB	46.4 dB	8.8 dB	9.2 dB	2.4 dB
③ 各楽器を個別に再生成	-11.03 dB	34.6 dB	19.2 dB	18.5 dB	10.5 dB

注記: ③の「再生成」はSuno Studio機能で各楽器を個別に再生成したものである。Sunoの生成特性上、再生成時にフレーズやニュアンスが若干変化するため、①②と完全に同一の演奏内容ではない。

決定的な発見: ①と②はほぼ同等の劣化パターンを示し、③のみが大幅に改善される。5–8kHz帯で③は①に対して**+16.8 dBのSideエネルギーを保持する。ステレオ幅（Side/Mid比）も③が①に対して+8.27 dB**広い。
これは、劣化がミックスダウン時にオーディオデータ自体に焼き込まれていることの直接的証拠である。ステム分離は既に劣化済みの信号を分解しているだけであり、失われた情報は復元できない。③のみが改善されるのは、コーデック通過前の内部生成レイヤーから引き直しているためである。

パイプライン比較

パイプライン別ステレオ幅

4. 技術的分析

注記: 本セクションには事実に基づく推定（Inference）と、状況証拠に基づく考察（Hypothesis）が含まれる。各項目の冒頭で区分を明示する。

4.1 ニューラルオーディオコーデックの構造的影響【推定】

Suno AIをはじめとする音楽生成AIは、内部的にニューラルオーディオコーデック（EnCodec、SoundStream、またはその派生）を使用している。これらのコーデックは知覚的に重要な成分の再現を優先するロス関数で訓練されており、ステレオ音声を扱う場合、Mid成分がSide成分よりも帯域配分で優先される。これはMP3のジョイントステレオと同じ設計思想である。

学術文献においても、EnCodecの48kHzステレオモデルがSide成分の再現性で制約を持つことが示唆されている。Suno出力のSide高域劣化は、このコーデック構造の直接的帰結として合理的に説明できる。

4.2 ステム出力との非対称性【事実】

セクション3.4の3段階パイプライン比較により、ステムとミックスの出力経路が異なることが客観的に確認された。以下のパイプライン構造が実証される：

内部生成レイヤー（高解像度）
  ├── Stem出力 → レイヤー個別にWAV化（コーデック前 or 軽量処理）
  └── Mix出力  → 全レイヤーをサム → ニューラルコーデック → WAVコンテナ

4.3 意図的フィンガープリントの可能性【考察】

以下の状況証拠は、Side高域の劣化が意図的なフィンガープリント設計を含む可能性を示唆する：

根拠1：Warner Music Group提携との時系列的相関 — 2025年11月25日、WMGとSunoは訴訟和解を含む包括的提携を発表。提携には「ダウンロード・品質・安全性」が明示的にアジェンダとして含まれる。提携の前段階（2025年10〜11月頃）から、Sunoのミックス出力における圧縮ノイズの増加が体感的に確認されている。

根拠2：ステム/ミックスの非対称性が合目的的 — 「完成品として配布される出力にのみ署名を入れ、素材として再利用される出力には入れない」という合理的な設計意図と一致する。

根拠3：検出ツールの存在 — Suno出力に特化したフィンガープリント検出ツールが複数存在し、2–8kHz帯のスペクトル特性を検出対象としている。Suno自身も「独自の不可聴ウォーターマーク技術」の使用を公式に認めている。

根拠4：レーベル側の動機 — メジャーレーベルが自社カタログでトレーニングされたモデルの出力に対するトレーサビリティを要求することは、ライセンス契約の実効性を担保する上で合理的である。

4.4 WAVコンテナの実質的意味【事実】

先行して分析した別のSuno出力ファイルは、WAVコンテナでありながらPCM_16bitで記録されていた。コンテナフォーマットは内部のニューラルコーデック通過後のデータの情報量を反映しない。

5. 業界動向との関連

5.1 Warner × Suno 提携の概要

2025年11月25日に発表されたWarner Music GroupとSunoの提携は以下を含む：

訴訟の和解（UMG/Sony/WMGによるRIAA経由の著作権侵害訴訟）
ライセンスされた楽曲による次世代モデルの構築（2026年に現行モデルを廃止）
アーティストのオプトイン制度（名前・肖像・声・楽曲の使用に対する同意と報酬）
ダウンロード制限の導入（無料プランのダウンロード不可、有料プランに月間上限）

5.2 AI生成コンテンツの配信問題

AI生成楽曲がストリーミングプラットフォームに大量に流入している問題は、業界全体の課題となっている。Suno出力のスペクトル特性（本レポートで検証したSide高域劣化を含む）は、検出の技術的基盤となりうる。

6. プロワークフローへの影響

6.1 推奨ワークフロー

生成 → カバー（アレンジ/バランス補正） → ステム分離 → DAWミックス → マスタリング
       ↑                                  ↑
       音質ではなく                         ここで初めて
       演奏/バランスの選定                   音質を追い込む

6.2 カバーモードの再定義

カバーモードは音質向上ツールではなく、アレンジ/演奏のバリエーション生成ツールとして位置づけるべきである。カバーは元音源（すでにニューラルコーデック通過済み）を再度同じパイプラインに通すため、Side成分は二重のロッシー処理を受ける。

6.3 課金プランの実質的価値

WAVダウンロード機能は、コンテナフォーマットの変更であり、内部コーデック処理後のデータの情報量増加を意味しない。プロ用途において実質的な価値を持つのは、むしろステム出力機能である。

7. 結論

確認された事実

Suno AIのWAVミックスダウン出力において、Side成分の5kHz以上の帯域で著しいエネルギー減衰が存在する
この減衰はSuno出力全サンプルに共通し、従来DAW制作物には見られない
Side成分のロールオフ（38.6–42.2 dB）はMP3 128kbpsジョイントステレオの挙動と類似する
ステム出力ではこの劣化が報告されていない
WAVコンテナのビット深度は、内部コーデック処理後のデータ品質を反映しない

合理的な推定

Suno内部パイプラインはニューラルオーディオコーデック（EnCodec系）を使用しており、Side高域劣化はその構造的帰結である
ステムとミックスの出力経路は異なり、コーデック適用のタイミングが異なる

検証を要する仮説

Side高域劣化の一部または全部が、意図的なフィンガープリント設計である可能性
Warner Music Group提携に伴うトレーサビリティ要件が、この設計の動機である可能性
このフィンガープリントが配信プラットフォームのAI検出システムと連携している可能性

本レポートは独立した技術検証に基づく。Suno AI、Warner Music Group、およびその他の企業との利害関係はない。