Gary
Hsieh
2026 · taipeiloading
回到文章列表
音樂製作AI 趨勢2026-03-19

來了一個AI 混音助理「真的聽懂」你的音樂

來了一個AI 混音助理「真的聽懂」你的音樂

來了一個AI 混音助理「真的聽懂」你的音樂。

Safari Audio 出了一個叫 Meaw:Assist 的 plugin,直接掛在 DAW 裡面的 AI 混音顧問。它做的事情跟一個助理一模模一樣樣:聽你的音軌播一段、錄一段、loop 一段,它都能接收,分析完後跟你聊天,直接問它:

  • EQ 怎麼調
  • Compressor 怎麼設
  • 有哪些 Plugin 適合用 (這個 Tool Use 直接打到我 痛點,非常適合我現在的情況,因為我真的常常忘記自己到底裝了什麼 plugin)

他都能回。

這類「理解音樂」的模型演進脈絡大概是這樣

  • 最早是 Essentia 那派 rule-based 特徵擷取(抓 tempo、key、spectral features)
  • 出現 CLAP — 音訊版的 CLIP,對比學習把音訊和文字拉進同一個嵌入空間
  • 是 MERT,BERT 架構搭 CQT teacher 做 pre-training
  • 到了Audio Language Model(這個我覺得超屌…SALMONN、MU-LLaMA、Music Flamingo、Qwen2-Audio、QWen Omni

從底層到抽象:rule-based → self-supervised 音樂基礎模型 → 通用 Audio LLM → domain-specific fine-tuned model(music understanding 的模型真的好狂,我超愛)。

Safari 說 Meaw 是自研模型,專門為混音流程訓練,就是最後一個節點,不像LLM 硬聊,亂扯你音樂如何如何,做到真正理解音樂:給描述、給 BPM、給歌詞,跟氛圍。

之前 Sonible smart:EQ 大概是在比較前半的節點,Meaw 的話,它不碰你的參數,只跟你對話、給建議、幫你想音樂設計。真的是你的混音助理或老師了(看你等級如何

拉遠一點看,如果不是做音樂 plugin 的人,想拆解任何一個 Agentic 的產品,拿這個思路來參考:

  1. 找到 User 的痛點 — Meaw 的案例就是「混音的時候想要有人可以問」
  2. 找到可用的模型 — music understanding model 這條線已經從 rule-based 走到 domain-specific LLM
  3. 根據你的 Domain 設計解法 — 把模型包進 DAW plugin,加上 chat interface,讓它在使用者的工作流裡面直接解決問題

痛點 → 模型 → Domain-specific 解法,這個框架套到任何產業的 AI 產品都通用 I think….

Now, we need the person truly understand our domain deeply!!!

#AI#Agent#LLM#混音#架構