More  

收藏本站

電腦請使用 Ctrl + D 加入最愛
手機請使用 收藏
關閉

小編的世界 優質文選 探索

階躍星辰再推開源模型,與ACE Studio聯合發布ACE-Step音躍大模型_音樂_歌詞_旋律


字體大小:
2025年7月05日 -
:       
 

階躍星辰再推開源模型,與ACE Studio聯合發布ACE-Step音躍大模型

作者:數智前線

5月7日,人工智能基礎大模型公司階躍星辰與數字音樂平台 ACE Studio ,聯合發布開源音樂大模型“ACE-Step”(音躍),據悉模型參數量為3.5B,具備快速高質量生成、強可控性、易於拓展等特點,同時支持多種語言的歌曲生成,涵蓋中文、英文、日文、韓文、西班牙文、俄語等19 種語言。

階躍星辰方面介紹,作為一個通用性強的音樂基礎模型,ACE-Step 支持包括 LoRA (定制音樂風格)和 ControlNet(人聲驅動伴奏生成) 在內的多種微調方式,可靈活適配音頻編輯、人聲合成、伴奏生成、聲線克隆、風格遷移等多種下遊任務,相比此前的開源音樂模型,具有真·全曲生成、精准時長控制、靈活輸入格式、多語言與多風格生成四大優勢。

另外,當前技術普遍面臨生成速度、音樂連貫性和可控性之間的固有權衡。例如基於LLM的模型(如Yue、SongGen)擅長歌詞對齊,但存在推理速度慢和音質問題;而擴散模型(如DiffRhythm)能實現更快合成,卻往往缺乏全局結構連貫性。而ACE-Step通過融合擴散生成、Sana深度壓縮自編碼器(DCAE)和輕量級線性Transformer架構,成功彌合了這一鴻溝。

ACE-Step 模型架構圖

amocity
amocity

  


該模型在訓練階段創新性地采用MERT和m-hubert實現語義表征對齊(REPA)技術,從而加速收斂。實驗表明,在A100 GPU上僅需20秒即可生成長達4分鐘的音樂,比基於LLM的基線快15倍,同時在旋律、和聲與節奏維度均展現出更優的音樂連貫性和歌詞對齊能力。ACE-Step也能保留精細的聲學細節,支持語音克隆、歌詞編輯、混音改編及分軌生成(如歌詞轉人聲、演唱轉伴奏)等高級控制功能。

ACE-Step 目前提供兩種生成模式:快速和慢速模式。最快 15 秒即可生成一整首歌,慢速模式也僅需 32 秒。

同時,ACE-Step 不僅僅是一個“生成器”,還是一個全能的“編輯器”,它為創作者提供了兩個關鍵功能:EditRetake/Repaint。

amocity
amocity

  


其中,Edit 功能可以使創作者在不改變旋律的情況下,精確修改已生成歌曲的歌詞內容、語氣或情感表達,確保每行歌詞與整體音樂風格完美契合。

而如果生成的作品不完全符合創作需求,創作者可以使用 Retake 功能重新生成一首風格相似、結構類似的歌曲,或者通過 Repaint 對特定部分(如旋律或歌詞)進行局部調整,進一步優化作品。

據悉,作為全球開源可商用的SOTA級音樂大模型,ACE-Step已開放GitHub代碼庫及API接口。開發者可基於其構建AI作曲、智能配樂、虛擬歌手等應用,而音樂人則能實現從靈感生成到混音母帶的全程AI輔助。