一言以蔽之:Diffusion的精髓就是一個de-noise的過程。
Stable Diffusion是一個很火的人工智慧繪圖工具,如同它的名字所言,它使用的AI模型就是diffusion。diffusion的中文叫「擴散」,實在是很難從擴散想到人腦模型,不如直接來看個例子。
我本來有一張美女圖(圖一),結果這張圖被噴漆噴到了,沾染了許多雜訊(圖二),由於我大概知道本來的圖的樣子,所以我可以試著把圖二修復回正常(圖三)。後面又有個死小孩塗鴉,把這張圖(圖四)塗成亂七八糟(圖五),雖然這次比上次慘,但我已經有豐富的修復經驗了,所以我成功地把圖五修復回正常(圖六)。……每天都有人來亂畫,我就這樣每天不斷地復原圖。最後,假以時日,我的復圖能力已經超級強,我再也不需要原圖,只要看著一張全是雜點的圖(圖七),我就復原出了美女圖(圖八)。
聽起來很扯嗎?其實不然,這就是「久病成良醫」的概念。如果有一個人一直修復有雜訊的美女圖,修久了他的確能從白紙創造出一張美女圖。如果有一個人一直修復有雜訊的汽車照片,修久了他的確能從白紙創造出一張汽車照片。
由於這個過程是把Gaussian noise隨機擴散入原本noise-free的圖,再訓練神經模型來逆轉擴散,所以把這方法稱呼為diffusion。diffusion這個模型要強大,就需要拿很多張圖給神經網路訓練reverse noise的過程,當網路學會各種圖形的de-noise以後,它就出師了。這時候,只要我們給它一句話,它就能生成圖片。