小編的世界優質文選科學

解決AI繪畫模型的世界觀偏見，360人工智能研究院發布中文原生AI繪畫模型BDM

2023年12月20日 - 科學小編

作者 | 360人工智能研究院視覺引擎部：冷大煒，劉山源

責編 | 夏萌

出品 | CSDN（ID：CSDNnews）

AI繪畫模型的世界觀偏見問題

22年基於擴散模型的圖像生成技術的突破，迅速引發了一場全球性的圖像AIGC研發熱潮和應用變革。這其中非常值得一提的是由Stability公司開發並開源的Stable Diffusion<1>模型，讓普通人也可以快速體會到AI技術對現實生產力的切實改變和推動。圍繞著開源的Stable Diffusion模型，眾多開源開發者和AI繪畫愛好者已經形成了眾多龐大的AI繪畫社區，如Civitai<2>，Stable Diffusion Online<3>等等，並在這些社區中不斷推出各種衍生工具和模型，形成推動AI繪畫技術進步的重要力量。

中文AI繪畫模型的研發在整體上落後於英文AI繪畫模型。AI繪畫模型屬於CV大模型的範疇，訓練一個AI繪畫模型需要海量的訓練數據並對訓練算力要較高的要求。以Stable Diffusion 2.1為例，根據公開資料<4>: SD2.1僅base模型的訓練就動用了256塊A100 GPU，訓練折算20萬卡時，共28.7億的圖文樣本訓練量。而國內能夠同時滿足算力和數據要求的研發機構屈指可數。這就導致大量的中文AI繪畫產品背後實際上都是以開源的英文SD模型及其微調模型為能力基座。

但是，以SD為代表的英文AI繪畫模型，包括且不限於SD1.4/1.5/2.1以及DALLE-2<5>、Midjourney<6>等都普遍帶有明顯的英文世界偏見。如工作<7>所指出的，當前英文模型生成的人物形象更偏向於白人和男性。除人物形象外，如下圖1所示，物品、建築、車輛、服飾、標志等等都存在普遍的英文世界偏見。除此之外，之前遭到網友們調侃的“車水馬龍”、“紅燒獅子頭”<8>等現象，本質上也是因為中文概念無法被英文AI繪畫模型准確生成。

圖1 英文AI繪畫模型的世界觀偏見示例，生成的車輛、建築、人物、旗幟、標志等都具有明顯的英文世界偏向。從左到右分別是：SDXL，Midjourney，國內友商B*，國內友商V*

中文AI繪畫模型的路線選擇

中文AI繪畫模型的研發從易到難當前有如下的幾種方式：

表1 當前中文AI繪畫模型的不同路線選擇及其優缺點比較

BDM中文原生AI繪畫模型

如表1所總結的，當前的中文AI繪畫模型路線中，中文從頭訓練能夠為中文用戶提供最為完整的原生中文能力，但代價是中文模型與英文SD模型不兼容，因此在英文SD模型上衍生出的大量社區資源如微調模型、LoRA、Dreambooth、ControlNet等無法直接使用，理論上這些模型都需要針對中文模型重新進行適配訓練。這就導致中文模型很難形成社區效應，並可能持續落後於英文社區的進步速度。

能否在原生中文能力之上，進一步打通中文原生模型與英文SD社區的兼容性問題，就成為我們所要攻克的一個關鍵難題。經過近半年的技術攻關，我們提出了一種新的擴散模型結構，稱為“Bridge Diffusion Model”（BDM），以解決上述的困境。BDM不僅可以精確的生成中文語義圖片，解決了英文模型的世界偏見問題，同時又保持了和英文社區之間的互通性，無縫兼容各種英文SD社區插件，這也是命名中“Bridge”的由來。BDM通過主乾-旁支的架構結合原始英文模型，同時使用純中文數據訓練，打造中文原生AI繪畫模型。

論文鏈接：https://arxiv.org/abs/2309.00952

1、模型框架

BDM采用類似ControlNet<14>的主乾-旁支網絡結構，如圖3(b)所示。其中主乾網絡采用Stable Diffusion 1.5的結構並使用其預訓練參數進行初始化，旁支網絡則是由主乾網絡派生出來的可學習副本構成。與ControlNet相比，BDM在結構上的不同之處在於不存在旁支中的條件圖像卷積層，這是因為在BDM中，中文prompt是通過旁支網絡而非主乾網絡進行處理。我們選擇了Chinese CLIP text encoder<15>做為中文的文本編碼器。主乾網絡的英文text encoder可以去掉只通過旁支網絡支持中文prompt，或者也可以保留從而實現中英雙語的支持。在我們的實現中我們選擇保留英文text encoder，因此BDM同時具備中英雙語繪畫的能力。BDM網絡結構的一個關鍵優點在於，主乾網絡包含了完整的英文SD結構並在訓練中凍結，因此BDM的隱空間與英文SD模型保持一致，從而可以無縫兼容各種適配於英文SD模型的社區插件。

圖3 ControlNet和BDM的網絡結構圖，左圖是ControlNet，右圖是BDM

2、訓練策略

BDM的整體訓練loss如圖4所示，擴散模型<16>算法學習一個網絡εθ，以根據一組條件來預測添加到帶噪圖像zt中的噪聲，這些條件包括時間步長t，用於主乾的文本輸入cent以及用於旁支的文本輸入cnlt。

然而僅有這樣的網絡結構和訓練目標是不夠的，因為在訓練過程中同時將語義信息注入到主乾和旁支並不可行，這是由於經過預訓練的主乾已經包含了強大的英文語義信息，這會阻礙旁支的中文語義學習。因此，BDM使用了一個關鍵的訓練策略——訓練階段主乾的文本輸入始終為空字符串，即cent始終為“”。這是因為在SD1.5訓練過程中，文本輸入有10%的概率置為空，因此可以認為空字符串對應的隱空間是SD1.5生成圖像整體的平均隱空間。對於BDM，主乾提供英文模型的平均隱空間，同時旁支在這個空間中學習中文語義，尋找中文語義在英文空間中的偏移，這樣就真正將BDM中文原生模型和英文社區有機的結合在了一起，使得BDM可以無縫接入英文社區。

圖4 BDM訓練loss

3、推理策略

在訓練階段，主乾參數始終鎖死，主乾文本輸入也始終為空字符串，但在推理階段可以有很多不同的選擇。

首先我們可以將主乾的正/負文本輸入都設置為空字符串，這和訓練階段保持一致，只用中文正/負輸入來注入語義。我們觀察到，對於訓練早期的BDM模型，推理階段在主乾使用通用的正/負文本輸入顯著改善了圖像質量；然而對於訓練末期的BDM模型，中文旁支已經得到了充分訓練，英文正/負輸入對圖像質量的影響就很小了。當然，為了實現更好的生成效果，中文和英文的正/負輸入都可以根據用戶的需求進行自適應調整。

BDM也可以和英文社區的各種插件無縫結合。當結合LoRA<17>時，將LoRA模型嵌入到BDM主乾結構中即可，和常規的英文模型嵌入LoRA方式相同，然後從旁支輸入所需中文提示即可。如果LoRA包含觸發詞，那麼推理時候需要將觸發詞輸入到主乾中。同樣，當結合ControlNet時，可以將ControlNet分支嵌入到BDM主乾上，這樣就形成了主乾—雙旁支結構。當結合checkpoint或者Dreambooth<18>時，把BDM主乾從SD1.5切換到對應的底模即可。結合Textual Inversion<19>時，可以直接把對應的embedding加載到主乾的文本輸入中即可。以上操作可以根據需求任意組合。

4、效果展示

如圖5是BDM使用SD1.5和realisticVisionV51<20>分別作為主乾來生成中文概念，可以看到中文獨有概念以及英文多義詞概念都生成的很合理。

圖5 中文概念生成

如圖6是BDM分別用不同風格的checkpoint<21><22><23><24>作為主乾進行生成，由於不同模型生成特定風格所需條件不同，比如有的需要觸發詞，有的需要風格詞，推理時候中/英文正/負輸入會根據風格條件進行微調，以達到更好的效果；但可以肯定的是，微調的文本只涉及觸發詞或者風格詞，具體圖像內容只會從中文文本來輸入。

圖6 不同風格checkpoint效果

如圖7是BDM分別結合不同LoRA<25><26><27>進行生成

圖7 不同風格LoRA效果

如圖8是BDM結合ControlNet<28>的生成

圖8 結合ControlNet效果

如圖9是BDM結合不同Dreambooth的生成，使用了6個名人的底模<29>。

圖9 不同Dreambooth效果

如圖10是BDM結合Textual Inversion<30>的生成，使用了年齡調節Textual Inversion。

圖10 不同Textual Inversion效果

未來工作

BDM1.0模型使用360內部收集的12億中文互聯網圖文數據訓練得到，如前面所展示的，BDM具有非常好的中文原生AI繪畫能力，且能無縫兼容當前英文SD社區的各種模型和插件。基於BDM1.0能力開發的中文AI繪畫產品“360鴻圖”也將於近期面向公眾開放，體驗入口：https://ai.360.cn/。

BDM的結構非常靈活，除了可以與SD1.5結合外，基於相同的原理也可以將BDM與SDXL、DALLE-2、Imagen等等模型結構相結合，進一步提升中文原生AI繪畫模型的規模和能力。

此外，眾所周知的，當前AI繪畫模型對文本prompt的理解能力仍然存在非常顯著的缺陷，要想得到好的生成結果，prompt指令更多的是各種關鍵詞/魔法詞的堆砌，與人類交流中使用的自然語言仍相去甚遠。提升AI繪畫模型對prompt指令的遵循能力，也是我們目前在多模態LLM（SEEChat: https://github.com/360CVGroup/SEEChat）與AIGC結合方面著力的重點。

作者簡介

冷大煒：360人工智能研究院視覺方向負責人，目前帶領研究院視覺團隊在多模態大模型，視覺AIGC，跨模態圖文學習，開放世界目標檢測，開放詞表視頻分析，AIoT等方向進行前沿探索和工業落地工作。

劉山源：360人工智能研究院視覺引擎部算法專家，目前在AIGC的生成、編輯、多概念等方向進行前沿探索

參考文獻

<1> Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bjorn Ommer. High-resolution image synthesis with latent diffusion models. In 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Jun 2022

<2> https://civitai.com

<3> https://stablediffusionweb.com

<4> https://huggingface.co/stabilityai/stable-diffusion-2-1

<5> Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with CLIP latents. CoRR, abs/2204.06125, 2022.

<6> https://www.midjourney.com

<7> Alexandra Sasha Luccioni, Christopher Akiki, Margaret Mitchell, and Yacine Jernite. Stable bias: Analyzing societal representations in diffusion models. CoRR, abs/2303.11408, 2023.

<8> https://news.mydrivers.com/1/898/898682.htm

<9> Jiaxing Zhang, etc. Fengshenbang 1.0: Being the foundation of chinese cognitive intelligence. CoRR, abs/2209.02970, 2022

<10> https://github.com/SkyWorkAIGC/SkyPaint-AI-Diffusion

<11> https://www.zhihu.com/question/619921556/answer/3190626893

<12> https://modelscope.cn/models/damo/multi-modal_chinese_stable_diffusion_v1.0

<13> https://xihe.mindspore.cn/modelzoo/wukong

<14> Lvmin Zhang and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. CoRR, abs/2302.05543,2023.

<15> An Yang, Junshu Pan, Junyang Lin, Rui Men, Yichang Zhang, Jingren Zhou, and Chang Zhou. Chinese CLIP: Contrastive vision-language pretraining in chinese. arXiv preprint arXiv:2211.01335, 2022.

<16> Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Neural Information Processing Systems,Neural Information Processing Systems, Jan 2020.

<17> EdwardJ. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv: Computation and Language,arXiv: Computation and Language, Jun 2021.

<18> Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. CoRR, abs/2208.12242, 2022.

<19> Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit Haim Bermano, Gal Chechik, and Daniel Cohen-Or. An image is worth one word: Personalizing text-to-image generation using textual inversion. In The Eleventh International Conference on Learning Representations, ICLR 2023, Kigali, Rwanda, May 1-5, 2023. OpenReview.net, 2023.

<20> https://civitai.com/models/4201/realistic-vision-v51

<21> https://civitai.com/models/4384/dreamshaper

<22> https://civitai.com/models/35960/flat-2d-animerge

<23> https://civitai.com/models/65203/disney-pixar-cartoon-type-a

<24> https://civitai.com/models/80/midjourney-papercut

<25> https://civitai.com/models/73756/3d-rendering-style

<26> https://civitai.com/models/25995/blindbox

<27> https://civitai.com/models/16014/anime-lineart-manga-like-style

<28> https://huggingface.co/lllyasviel/control_v11f1p_sd15_depth

<29> https://civitai.com/models/59622/famous-people

<30> https://civitai.com/models/65214/age-slider

▶按玩家安裝量收費，知名遊戲引擎 Unity 新收費政策惹爭議！

▶3會並舉，100+中外專家，全球雲原生頂會重磅來襲！

▶iPhone 15系列來了：全系“上島”，換上USB-C接口，最高售價13999元！