フェーダーに触らないミキシング ― なぜ「チャットでミックスする」サービスを作ったのか
ミックスで止まる人たち
曲は作れるのにミックスで止まるって、よく聞く話ですよね。
聞くっていうか、身近で見てきた。曲自体はすごくいいのに、ミックスが詰め切れなくて塩漬けになってるトラックメイカー、めちゃくちゃ多い。
なぜ自分でミックスしないんですか。
ミキシングって、作曲とは全然別のスキルなのよ。曲を書くのは「何を伝えるか」の判断で、ミックスは「どう聴こえるか」の調整。画家に額縁の選定をやらせるみたいなもの。できなくはないけど、得意とは限らない。
じゃあ外注すればいい。
そこに問題がある。
価格の崖
どういう問題ですか。
ミックスの外注って、価格の崖があるんだよね。ココナラとかで数千円で受けてる人がいる一方で、プロのミキシングエンジニアに頼むと桁が変わる。
具体的にはどのくらい違う?
数千円か、数万円か。間がない。で、数千円のほうは何が問題かっていうと、品質が博打なのよ。頼んでみないとわからない。返ってきた音が微妙でも、「いやこれ全然違うんですけど」って言いにくい。
言いにくい?
だって相手も人間だから。数千円で引き受けてくれてる人に「やり直してください」って何回も言えないでしょ。リテイクが気まずい。これ、ミックスの外注で一番見落とされてる問題だと思う。
技術の問題じゃなくて、コミュニケーションの問題。
そう。ミックスって本来、何回もやり取りして詰めていくものなんだよ。Popsでも広告系でも制作の現場だと「ボーカルもうちょい前に」「キックの輪郭もう少し出して」って、何往復もする。でもそのコミュニケーションコストが、低価格帯だと成立しない。
リテイクが気まずくない
そこでMUEDialが出てくる。
うん。MUEDialのコンセプトはシンプルで、「チャットでミックスする」。フェーダーもスライダーも一切ない。テキストで「ボーカルをもっと前に」って書くだけ。
UIにフェーダーがないミキシングサービスって、ありそうでなかった。
“ミックスを外注する人がスライダー触りたいと思う? 思わないでしょ。”
— kimny
ミックスを外注する人がスライダー触りたいと思う? 思わないでしょ。頼む側は「こうしてほしい」を伝えたいだけ。今までのミキシングサービスにスライダーがあったのは、作り手がエンジニア目線だったから。
発想が逆。
ユーザーは「もうちょっとキラキラした感じにして」って言いたいだけなのよ。で、それを技術パラメータに翻訳するのはAIの仕事。
で、リテイクは?
何回でもできる。気まずくない。「やっぱ違う、もう1回」って、AIに対しては遠慮がゼロでしょ。しかも頼むたびに自分のミックスの好みが言語化されていく。
副産物として自分の好みがわかってくる。
そう。「もうちょい低音が欲しい」って何回か言ってるうちに、「自分はローが厚い音が好きなんだな」って気づく。ミックスを通じた自己理解。MUEDnoteの制作ログと同じ構造なんだよね。
1000円カットの話
価格はどうなってるんですか。
$8。
安い。
1000円カットが出ても美容室は潰れなかっただろ。同じことが起きると思ってる。
というと?
数千円でミックスを受けてる人って、正直もうやめた方がいいと思うのよ。その金額で人が疲弊するくらいなら、AIに任せればいい。人間はもっと、人間にしかできないことに時間を使った方がいい。
プロのエンジニアの仕事を奪うわけではない。
全然違う。プロのミキシングエンジニアがやってることは、もっと高度な判断の連続だから。曲のコンテキストを理解して、アーティストの意図を汲んで、音楽的な判断をする。それは$8のAIミックスとは別の世界。
“自分でやるには難しくて、プロに頼むには高い。その間を埋める。”
— kimny
MUEDialがカバーするのは「間」のゾーン。
そう。自分でやるには難しくて、プロに頼むには高い。その間を埋める。
なぜ自前で作らなかったか
MUEDearではDSPを自前で実装してましたよね。MUEDialのミキシングエンジンは?
RoExのエンジンを使ってる。
自前で作ろうとは思わなかった?
思わなかった。ミキシングエンジンって、EQとコンプを個別に実装する話じゃなくて、トラック間のバランスとか空間処理とか、もっと統合的な判断が必要なのよ。MUEDearのDSPは「1つの処理を正確にかける」だった。MUEDialは「全体をどう聴こえさせるか」。次元が違う。
使い分けの判断。
何でも自前で作ればいいわけじゃない。MUEDearのDSPは耳トレの精度に直結するから自前でやる必要があった。MUEDialのミキシングエンジンは、既に良いものがある。だったらそこに乗って、自分たちはUIとUXに集中する方が合理的。
「作れるけど作らない」という判断。
MUEDearの記事で「知った上で、あえて作る」って言ったでしょ。今回は「知った上で、あえて作らない」。判断の軸は同じで、「ユーザーにとってどっちがいいか」。
ミキシングの判断は耳に依存する
ミキシングの話を聞いてると、「脳は再生装置である」で語った「記憶の反芻」の話に繋がりますね。
そうなんだよ。ミキシングって結局、「この音はこう聴こえるべき」っていう基準を持ってるかどうかなの。その基準は何千曲も聴いてきた記憶の蓄積から来てる。
AIミキシングも同じことをやっている。
大量の音源を学習して、「この組み合わせならこういうバランスが適切」という判断をしてる。機構は同じ。でも決定的に違うのは、AIには「好み」がない。
好みがない。
「このアーティストはこういう方向性が合う」とか「この曲のムードにはこの空気感」みたいな判断は、今のAIにはまだ難しい。だからチャットで伝える。ユーザーの言葉がAIの「好み」の代わりになる。
ユーザーが耳を持ってないと、結局AIに「いい感じで」としか言えない。
そう。だからMUEDearなのよ。
え?
耳が鍛えられてれば、「もっとボーカルの2kHzあたりをクリアにして」って具体的に言える。耳が鍛えられてなければ、「なんかモヤモヤする」としか言えない。MUEDearで耳を鍛えて、MUEDialで使う。繋がってるんだよ。
フェーダーの先にあるもの
MUEDialは何を目指してるんですか。
究極的には、ミックスの民主化。曲を作る能力とミックスの能力が分離してる現状を、AIで解消する。
「ミックスに人が要らなくなる日」が来る?
プロのエンジニアが要らなくなるとは思ってない。でも「ミックスが壁になって曲を出せない人」は確実に減る。その壁を取り除くのがMUEDialの仕事。
プロの現場で培った判断が、設計に活きてる。
ミキシングの「リテイクが何往復も必要」っていう感覚、現場にいないとわからないからね。チャットUIにしたのも、「テキストベースの指示→修正→確認」のサイクルが音楽のディレクションにマッチすると思ったから。あの現場のワークフローを、そのままプロダクトに翻訳した。
この記事は、複数回にわたるAI(Claude)との対話をもとに再構成したものです。