小編的世界優質文選探索

階躍星辰再推開源模型，與ACE Studio聯合發布ACE-Step音躍大模型_音樂_歌詞_旋律

字體大小：
2025年7月05日 -
：

階躍星辰再推開源模型，與ACE Studio聯合發布ACE-Step音躍大模型
作者:數智前線
5月7日，人工智能基礎大模型公司階躍星辰與數字音樂平台 ACE Studio ，聯合發布開源音樂大模型“ACE-Step”（音躍），據悉模型參數量為3.5B，具備快速高質量生成、強可控性、易於拓展等特點，同時支持多種語言的歌曲生成，涵蓋中文、英文、日文、韓文、西班牙文、俄語等19 種語言。 
階躍星辰方面介紹，作為一個通用性強的音樂基礎模型，ACE-Step 支持包括 LoRA （定制音樂風格）和 ControlNet（人聲驅動伴奏生成） 在內的多種微調方式，可靈活適配音頻編輯、人聲合成、伴奏生成、聲線克隆、風格遷移等多種下遊任務，相比此前的開源音樂模型，具有真·全曲生成、精准時長控制、靈活輸入格式、多語言與多風格生成四大優勢。 
另外，當前技術普遍面臨生成速度、音樂連貫性和可控性之間的固有權衡。 例如基於LLM的模型（如Yue、SongGen）擅長歌詞對齊，但存在推理速度慢和音質問題；而擴散模型（如DiffRhythm）能實現更快合成，卻往往缺乏全局結構連貫性。 而ACE-Step通過融合擴散生成、Sana深度壓縮自編碼器（DCAE）和輕量級線性Transformer架構，成功彌合了這一鴻溝。 
ACE-Step 模型架構圖
該模型在訓練階段創新性地采用MERT和m-hubert實現語義表征對齊（REPA）技術，從而加速收斂。 實驗表明，在A100 GPU上僅需20秒即可生成長達4分鐘的音樂，比基於LLM的基線快15倍，同時在旋律、和聲與節奏維度均展現出更優的音樂連貫性和歌詞對齊能力。 ACE-Step也能保留精細的聲學細節，支持語音克隆、歌詞編輯、混音改編及分軌生成（如歌詞轉人聲、演唱轉伴奏）等高級控制功能。 
ACE-Step 目前提供兩種生成模式：快速和慢速模式。 最快 15 秒即可生成一整首歌，慢速模式也僅需 32 秒。 
同時，ACE-Step 不僅僅是一個“生成器”，還是一個全能的“編輯器”，它為創作者提供了兩個關鍵功能：Edit 和 Retake/Repaint。 
其中，Edit 功能可以使創作者在不改變旋律的情況下，精確修改已生成歌曲的歌詞內容、語氣或情感表達，確保每行歌詞與整體音樂風格完美契合。 
而如果生成的作品不完全符合創作需求，創作者可以使用 Retake 功能重新生成一首風格相似、結構類似的歌曲，或者通過 Repaint 對特定部分（如旋律或歌詞）進行局部調整，進一步優化作品。 
據悉，作為全球開源可商用的SOTA級音樂大模型，ACE-Step已開放GitHub代碼庫及API接口。 開發者可基於其構建AI作曲、智能配樂、虛擬歌手等應用，而音樂人則能實現從靈感生成到混音母帶的全程AI輔助。

第頁完，請繼續朗讀下一頁。喜歡 小編的世界，請記得按讚、收藏及分享

階躍星辰再推開源模型，與ACE Studio聯合發布ACE-Step音躍大模型

作者:數智前線

5月7日，人工智能基礎大模型公司階躍星辰與數字音樂平台 ACE Studio ，聯合發布開源音樂大模型“ACE-Step”（音躍），據悉模型參數量為3.5B，具備快速高質量生成、強可控性、易於拓展等特點，同時支持多種語言的歌曲生成，涵蓋中文、英文、日文、韓文、西班牙文、俄語等19 種語言。

階躍星辰方面介紹，作為一個通用性強的音樂基礎模型，ACE-Step 支持包括 LoRA （定制音樂風格）和 ControlNet（人聲驅動伴奏生成）在內的多種微調方式，可靈活適配音頻編輯、人聲合成、伴奏生成、聲線克隆、風格遷移等多種下遊任務，相比此前的開源音樂模型，具有真·全曲生成、精准時長控制、靈活輸入格式、多語言與多風格生成四大優勢。

另外，當前技術普遍面臨生成速度、音樂連貫性和可控性之間的固有權衡。例如基於LLM的模型（如Yue、SongGen）擅長歌詞對齊，但存在推理速度慢和音質問題；而擴散模型（如DiffRhythm）能實現更快合成，卻往往缺乏全局結構連貫性。而ACE-Step通過融合擴散生成、Sana深度壓縮自編碼器（DCAE）和輕量級線性Transformer架構，成功彌合了這一鴻溝。

ACE-Step 模型架構圖

該模型在訓練階段創新性地采用MERT和m-hubert實現語義表征對齊（REPA）技術，從而加速收斂。實驗表明，在A100 GPU上僅需20秒即可生成長達4分鐘的音樂，比基於LLM的基線快15倍，同時在旋律、和聲與節奏維度均展現出更優的音樂連貫性和歌詞對齊能力。ACE-Step也能保留精細的聲學細節，支持語音克隆、歌詞編輯、混音改編及分軌生成（如歌詞轉人聲、演唱轉伴奏）等高級控制功能。

ACE-Step 目前提供兩種生成模式：快速和慢速模式。最快 15 秒即可生成一整首歌，慢速模式也僅需 32 秒。