More  

小編的世界 優質文選 科學

解決AI繪畫模型的世界觀偏見,360人工智能研究院發布中文原生AI繪畫模型BDM


2023年12月20日 - 科學小編  
   

作者 | 360人工智能研究院視覺引擎部:冷大煒,劉山源

責編 | 夏萌

出品 | CSDN(ID:CSDNnews)

AI繪畫模型的世界觀偏見問題

22年基於擴散模型的圖像生成技術的突破,迅速引發了一場全球性的圖像AIGC研發熱潮和應用變革。這其中非常值得一提的是由Stability公司開發並開源的Stable Diffusion<1>模型,讓普通人也可以快速體會到AI技術對現實生產力的切實改變和推動。圍繞著開源的Stable Diffusion模型,眾多開源開發者和AI繪畫愛好者已經形成了眾多龐大的AI繪畫社區,如Civitai<2>,Stable Diffusion Online<3>等等,並在這些社區中不斷推出各種衍生工具和模型,形成推動AI繪畫技術進步的重要力量。

中文AI繪畫模型的研發在整體上落後於英文AI繪畫模型。AI繪畫模型屬於CV大模型的範疇,訓練一個AI繪畫模型需要海量的訓練數據並對訓練算力要較高的要求。以Stable Diffusion 2.1為例,根據公開資料<4>: SD2.1僅base模型的訓練就動用了256塊A100 GPU,訓練折算20萬卡時,共28.7億的圖文樣本訓練量。而國內能夠同時滿足算力和數據要求的研發機構屈指可數。這就導致大量的中文AI繪畫產品背後實際上都是以開源的英文SD模型及其微調模型為能力基座。

但是,以SD為代表的英文AI繪畫模型,包括且不限於SD1.4/1.5/2.1以及DALLE-2<5>、Midjourney<6>等都普遍帶有明顯的英文世界偏見。如工作<7>所指出的,當前英文模型生成的人物形象更偏向於白人和男性。除人物形象外,如下圖1所示,物品、建築、車輛、服飾、標志等等都存在普遍的英文世界偏見。除此之外,之前遭到網友們調侃的“車水馬龍”、“紅燒獅子頭”<8>等現象,本質上也是因為中文概念無法被英文AI繪畫模型准確生成。

圖1 英文AI繪畫模型的世界觀偏見示例,生成的車輛、建築、人物、旗幟、標志等都具有明顯的英文世界偏向。從左到右分別是:SDXL,Midjourney,國內友商B*,國內友商V*



  

中文AI繪畫模型的路線選擇

中文AI繪畫模型的研發從易到難當前有如下的幾種方式:

表1 當前中文AI繪畫模型的不同路線選擇及其優缺點比較

BDM中文原生AI繪畫模型

如表1所總結的,當前的中文AI繪畫模型路線中,中文從頭訓練能夠為中文用戶提供最為完整的原生中文能力,但代價是中文模型與英文SD模型不兼容,因此在英文SD模型上衍生出的大量社區資源如微調模型、LoRA、Dreambooth、ControlNet等無法直接使用,理論上這些模型都需要針對中文模型重新進行適配訓練。這就導致中文模型很難形成社區效應,並可能持續落後於英文社區的進步速度。

能否在原生中文能力之上,進一步打通中文原生模型與英文SD社區的兼容性問題,就成為我們所要攻克的一個關鍵難題。經過近半年的技術攻關,我們提出了一種新的擴散模型結構,稱為“Bridge Diffusion Model”(BDM),以解決上述的困境。BDM不僅可以精確的生成中文語義圖片,解決了英文模型的世界偏見問題,同時又保持了和英文社區之間的互通性,無縫兼容各種英文SD社區插件,這也是命名中“Bridge”的由來。BDM通過主乾-旁支的架構結合原始英文模型,同時使用純中文數據訓練,打造中文原生AI繪畫模型。

論文鏈接:https://arxiv.org/abs/2309.00952

1、模型框架

BDM采用類似ControlNet<14>的主乾-旁支網絡結構,如圖3(b)所示。其中主乾網絡采用Stable Diffusion 1.5的結構並使用其預訓練參數進行初始化,旁支網絡則是由主乾網絡派生出來的可學習副本構成。與ControlNet相比,BDM在結構上的不同之處在於不存在旁支中的條件圖像卷積層,這是因為在BDM中,中文prompt是通過旁支網絡而非主乾網絡進行處理。我們選擇了Chinese CLIP text encoder<15>做為中文的文本編碼器。主乾網絡的英文text encoder可以去掉只通過旁支網絡支持中文prompt,或者也可以保留從而實現中英雙語的支持。在我們的實現中我們選擇保留英文text encoder,因此BDM同時具備中英雙語繪畫的能力。BDM網絡結構的一個關鍵優點在於,主乾網絡包含了完整的英文SD結構並在訓練中凍結,因此BDM的隱空間與英文SD模型保持一致,從而可以無縫兼容各種適配於英文SD模型的社區插件。

圖3 ControlNet和BDM的網絡結構圖,左圖是ControlNet,右圖是BDM

2、訓練策略

BDM的整體訓練loss如圖4所示,擴散模型<16>算法學習一個網絡εθ,以根據一組條件來預測添加到帶噪圖像zt中的噪聲,這些條件包括時間步長t,用於主乾的文本輸入cent以及用於旁支的文本輸入cnlt。

然而僅有這樣的網絡結構和訓練目標是不夠的,因為在訓練過程中同時將語義信息注入到主乾和旁支並不可行,這是由於經過預訓練的主乾已經包含了強大的英文語義信息,這會阻礙旁支的中文語義學習。因此,BDM使用了一個關鍵的訓練策略——訓練階段主乾的文本輸入始終為空字符串,即cent始終為“”。這是因為在SD1.5訓練過程中,文本輸入有10%的概率置為空,因此可以認為空字符串對應的隱空間是SD1.5生成圖像整體的平均隱空間。對於BDM,主乾提供英文模型的平均隱空間,同時旁支在這個空間中學習中文語義,尋找中文語義在英文空間中的偏移,這樣就真正將BDM中文原生模型和英文社區有機的結合在了一起,使得BDM可以無縫接入英文社區。

圖4 BDM訓練loss

3、推理策略

在訓練階段,主乾參數始終鎖死,主乾文本輸入也始終為空字符串,但在推理階段可以有很多不同的選擇。

首先我們可以將主乾的正/負文本輸入都設置為空字符串,這和訓練階段保持一致,只用中文正/負輸入來注入語義。我們觀察到,對於訓練早期的BDM模型,推理階段在主乾使用通用的正/負文本輸入顯著改善了圖像質量;然而對於訓練末期的BDM模型,中文旁支已經得到了充分訓練,英文正/負輸入對圖像質量的影響就很小了。當然,為了實現更好的生成效果,中文和英文的正/負輸入都可以根據用戶的需求進行自適應調整。

BDM也可以和英文社區的各種插件無縫結合。當結合LoRA<17>時,將LoRA模型嵌入到BDM主乾結構中即可,和常規的英文模型嵌入LoRA方式相同,然後從旁支輸入所需中文提示即可。如果LoRA包含觸發詞,那麼推理時候需要將觸發詞輸入到主乾中。同樣,當結合ControlNet時,可以將ControlNet分支嵌入到BDM主乾上,這樣就形成了主乾—雙旁支結構。當結合checkpoint或者Dreambooth<18>時,把BDM主乾從SD1.5切換到對應的底模即可。結合Textual Inversion<19>時,可以直接把對應的embedding加載到主乾的文本輸入中即可。以上操作可以根據需求任意組合。

4、效果展示

如圖5是BDM使用SD1.5和realisticVisionV51<20>分別作為主乾來生成中文概念,可以看到中文獨有概念以及英文多義詞概念都生成的很合理。

圖5 中文概念生成

如圖6是BDM分別用不同風格的checkpoint<21><22><23><24>作為主乾進行生成,由於不同模型生成特定風格所需條件不同,比如有的需要觸發詞,有的需要風格詞,推理時候中/英文正/負輸入會根據風格條件進行微調,以達到更好的效果;但可以肯定的是,微調的文本只涉及觸發詞或者風格詞,具體圖像內容只會從中文文本來輸入。

圖6 不同風格checkpoint效果

如圖7是BDM分別結合不同LoRA<25><26><27>進行生成

圖7 不同風格LoRA效果

如圖8是BDM結合ControlNet<28>的生成

圖8 結合ControlNet效果

如圖9是BDM結合不同Dreambooth的生成,使用了6個名人的底模<29>。

圖9 不同Dreambooth效果

如圖10是BDM結合Textual Inversion<30>的生成,使用了年齡調節Textual Inversion。

圖10 不同Textual Inversion效果

未來工作

BDM1.0模型使用360內部收集的12億中文互聯網圖文數據訓練得到,如前面所展示的,BDM具有非常好的中文原生AI繪畫能力,且能無縫兼容當前英文SD社區的各種模型和插件。基於BDM1.0能力開發的中文AI繪畫產品“360鴻圖”也將於近期面向公眾開放,體驗入口:https://ai.360.cn/。

BDM的結構非常靈活,除了可以與SD1.5結合外,基於相同的原理也可以將BDM與SDXL、DALLE-2、Imagen等等模型結構相結合,進一步提升中文原生AI繪畫模型的規模和能力。

此外,眾所周知的,當前AI繪畫模型對文本prompt的理解能力仍然存在非常顯著的缺陷,要想得到好的生成結果,prompt指令更多的是各種關鍵詞/魔法詞的堆砌,與人類交流中使用的自然語言仍相去甚遠。提升AI繪畫模型對prompt指令的遵循能力,也是我們目前在多模態LLM(SEEChat: https://github.com/360CVGroup/SEEChat)與AIGC結合方面著力的重點。

作者簡介

冷大煒:360人工智能研究院視覺方向負責人,目前帶領研究院視覺團隊在多模態大模型,視覺AIGC,跨模態圖文學習,開放世界目標檢測,開放詞表視頻分析,AIoT等方向進行前沿探索和工業落地工作。

劉山源:360人工智能研究院視覺引擎部算法專家,目前在AIGC的生成、編輯、多概念等方向進行前沿探索

參考文獻

<1> Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bjorn Ommer. High-resolution image synthesis with latent diffusion models. In 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Jun 2022

<2> https://civitai.com

<3> https://stablediffusionweb.com

<4> https://huggingface.co/stabilityai/stable-diffusion-2-1

<5> Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with CLIP latents. CoRR, abs/2204.06125, 2022.



  

<6> https://www.midjourney.com

<7> Alexandra Sasha Luccioni, Christopher Akiki, Margaret Mitchell, and Yacine Jernite. Stable bias: Analyzing societal representations in diffusion models. CoRR, abs/2303.11408, 2023.

<8> https://news.mydrivers.com/1/898/898682.htm

<9> Jiaxing Zhang, etc. Fengshenbang 1.0: Being the foundation of chinese cognitive intelligence. CoRR, abs/2209.02970, 2022

<10> https://github.com/SkyWorkAIGC/SkyPaint-AI-Diffusion

<11> https://www.zhihu.com/question/619921556/answer/3190626893

<12> https://modelscope.cn/models/damo/multi-modal_chinese_stable_diffusion_v1.0

<13> https://xihe.mindspore.cn/modelzoo/wukong

<14> Lvmin Zhang and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. CoRR, abs/2302.05543,2023.

<15> An Yang, Junshu Pan, Junyang Lin, Rui Men, Yichang Zhang, Jingren Zhou, and Chang Zhou. Chinese CLIP: Contrastive vision-language pretraining in chinese. arXiv preprint arXiv:2211.01335, 2022.

<16> Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Neural Information Processing Systems,Neural Information Processing Systems, Jan 2020.

<17> EdwardJ. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv: Computation and Language,arXiv: Computation and Language, Jun 2021.

<18> Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. CoRR, abs/2208.12242, 2022.

<19> Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit Haim Bermano, Gal Chechik, and Daniel Cohen-Or. An image is worth one word: Personalizing text-to-image generation using textual inversion. In The Eleventh International Conference on Learning Representations, ICLR 2023, Kigali, Rwanda, May 1-5, 2023. OpenReview.net, 2023.

<20> https://civitai.com/models/4201/realistic-vision-v51

<21> https://civitai.com/models/4384/dreamshaper

<22> https://civitai.com/models/35960/flat-2d-animerge

<23> https://civitai.com/models/65203/disney-pixar-cartoon-type-a

<24> https://civitai.com/models/80/midjourney-papercut

<25> https://civitai.com/models/73756/3d-rendering-style

<26> https://civitai.com/models/25995/blindbox

<27> https://civitai.com/models/16014/anime-lineart-manga-like-style

<28> https://huggingface.co/lllyasviel/control_v11f1p_sd15_depth

<29> https://civitai.com/models/59622/famous-people

<30> https://civitai.com/models/65214/age-slider

▶按玩家安裝量收費,知名遊戲引擎 Unity 新收費政策惹爭議!

▶3會並舉,100+中外專家,全球雲原生頂會重磅來襲!

▶iPhone 15系列來了:全系“上島”,換上USB-C接口,最高售價13999元!