Stable Diffusion je hluboké učení, text-to-image model vydaný v roce 2022. Je primárně používán k generování detailních obrázků podmíněných textovými popisy, i když může být také použit k jiným úkolům, jako je inpainting, outpainting a generování image-to-image překladů řízených textovým promptem. Byl vyvinut start-upem Stability AI ve spolupráci s řadou akademických výzkumníků a neziskových organizací. Stable Diffusion je latentní difúzní model, druh hluboké generativní neuronové sítě. Jeho kód a model váhy byly zveřejněny veřejně1 , a může běžet na většině spotřebitelského hardwaru vybaveného skromnou GPU s alespoň 8 GB VRAM. To znamenalo odchod od předchozích proprietárních text-to-image modelů, jako jsou DALL-E a Midjourney, které byly přístupné pouze prostřednictvím cloudových služeb

Stable Diffusion funguje tak, že používá „difúzi“ k generování kvalitních obrázků z textu. Difúzní proces zahrnuje iterativní aktualizaci sady obrazových pixelů na základě difúzní rovnice. To pomáhá vyhladit obraz a vytvořit realističtější texturu. Stable Diffusion je generativní model, který používá hluboké učení k vytváření obrázků z textu. Model je založen na architektuře neuronové sítě, která se může naučit mapovat textové popisy na obrazové rysy. To znamená, že může vytvořit obrázek odpovídající vstupnímu textovému popisu.

Stable Diffusion