Stable Diffusion: Perbedaan antara revisi

Konten dihapus Konten ditambahkan
InternetArchiveBot (bicara | kontrib)
Reformat 1 URL (Wayback Medic 2.5)) #IABot (v2.0.9.5) (GreenC bot
Mengganti Astronaut_Riding_a_Horse_(SD_3.5).webp dengan Astronaut_Riding_a_Horse_(SD3.5).webp (berkas dipindahkan oleh CommonsDelinker; alasan: File renamed: [[:
 
(4 revisi perantara oleh 4 pengguna tidak ditampilkan)
Baris 4:
| logo =
| logo caption =
| screenshot = Astronaut Riding a Horse (SDXLSD3.5).jpgwebp
| screenshot size = 250px
| caption = Sebuah gambar yang dihasilkan oleh Stable Diffusion berdasarkan kalimat "Sebuah foto astronot mengendarai seekor kuda"
Baris 10:
| developer = Stability AI
| released = 22 Agustus 2022
| latest release version = SDXLSD 13.05 (model)<ref name="release-sdxl1sd3.05">{{cite web|url=https://stability.ai/blognews/introducing-stable-diffusion-sdxl-13-announcement5|title=AnnouncingStable SDXLDiffusion 13.05|website=stability.ai|access-date=October 23, 2024|archive-date=JulyOctober 2623, 20232024|archive-url=https://web.archive.orgtoday/web/2023072621523920241023040750/https://stability.ai/blognews/introducing-stable-diffusion-sdxl-13-announcement5|url-status=live}}</ref>
| latest release date = 2623 JuliOktober 20232024
| repo = {{url|https://github.com/Stability-AI/stablediffusion}}
| programming language = [[Python (programming language)|Python]]<ref>{{cite web |author1 = Ryan O'Connor | title = How to Run Stable Diffusion Locally to Generate Images | url = https://www.assemblyai.com/blog/how-to-run-stable-diffusion-locally-to-generate-images/ | access-date = May 4, 2023 | date = August 23, 2022}}</ref>
Baris 26:
== Sejarah pengembangan ==
 
Pengembangan Stable Diffusion didanai dan didukung oleh perusahaan rintisan Stability AI.<ref name="forbes">{{Cite web|title=The AI Founder Taking Credit For Stable Diffusion's Success Has A History Of Exaggeration|url=https://www.forbes.com/sites/kenrickcai/2023/06/04/stable-diffusion-emad-mostaque-stability-ai-exaggeration/?sh=347a8fcb75c5|website=www.forbes.com|access-date=2023-06-20|url-status=live}}</ref><ref name="CNN-Getty2">{{Cite web|last=Korn|first=Jennifer|date=2023-01-17|title=Getty Images suing the makers of popular AI art tool for allegedly stealing photos|url=https://www.cnn.com/2023/01/17/tech/getty-images-stability-ai-lawsuit/index.html|website=CNN|language=en|access-date=2023-01-22}}</ref> Lisensi teknis untuk model tersebut dirilis oleh kelompok CompVis di Universitas Ludwig Maximilian München. Pengembangan dipimpin oleh Patrick Esser dari Runway dan Robin Rombach dari CompVis, yang termasuk di antara para peneliti yang sebelumnya menemukan arsitektur model difusi laten yang digunakan oleh Stable Diffusion. Stability AI juga memberikan apresiasi terhadap [[EleutherAI]] dan [[LAION]] (organisasi nirlaba [[Jerman]] yang mengumpulkan kumpulan data tempat pelatihan Stable Diffusion) sebagai pendukung proyek.
 
Pada Oktober 2022, Stability AI berhasil mengumpulkan US$101&nbsp;juta dalam program pendanaan yang dipimpin oleh Lightspeed Venture Partners dan Coatue Management.<ref>{{Cite web|last=Wiggers|first=Kyle|date=17 October 2022|title=Stability AI, the startup behind Stable Diffusion, raises $101M|url=https://techcrunch.com/2022/10/17/stability-ai-the-startup-behind-stable-diffusion-raises-101m/|website=Techcrunch|language=en|access-date=2022-10-17}}</ref>
Baris 41:
 
=== Data latih ===
Stable Diffusion dilatih pada pasangan gambar dan teks yang diambil dari LAION-5B, sebuah kumpulan data yang tersedia untuk umum yang berasal dari data [[Common Crawl]] yang diambil dari web, di mana 5 miliar pasangan gambar-teks diklasifikasikan berdasarkan bahasa dan disaring ke dalam kumpulan data terpisah berdasarkan resolusi, kemungkinan terdapatnya [[Penandaairan digital|tanda air digital]], dan skor "estetika" yang diprediksi (misalnya kualitas visual secara subjektif). <ref name="Waxy">{{Cite web|last=Baio|first=Andy|date=2022-08-30|title=Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator|url=https://waxy.org/2022/08/exploring-12-million-of-the-images-used-to-train-stable-diffusions-image-generator/|website=Waxy.org|language=en-US|access-date=2022-11-02}}</ref> Kumpulan data ini dibuat oleh [[LAION]], organisasi nirlaba Jerman yang menerima dana dari Stability AI.<ref name="Waxy" /><ref>{{Cite web|title=This artist is dominating AI-generated art. And he's not happy about it.|url=https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/|website=MIT Technology Review|language=en|access-date=2022-11-02}}</ref> Model Stable Diffusion dilatih pada tiga [[himpunan bagian]] LAION-5B yaitu laion2B-en, laion-high-resolution, dan laion-aesthetics v2 5+.<ref name="Waxy" /> Analisis pihak ketiga terhadap data latih model menunjukan sekitar 47% dari ukuran sampel gambar berasal dari 100 domain web berbeda, dengan [[Pinterest]] mengambil 8,5% bagian, diikuti oleh situs web seperti [[WordPress]], [[Blogger (layanan)|Blogspot]], [[Flickr]], [[DeviantArt]], dan [[Wikimedia Commons]].<ref>{{Cite web|last=Ivanovs|first=Alex|date=2022-09-08|title=Stable Diffusion: Tutorials, Resources, and Tools|url=https://stackdiary.com/stable-diffusion-resources/|website=Stack Diary|language=en-US|access-date=2022-11-02}}</ref><ref name="Waxy" />
 
=== Prosedur pelatihan ===
Baris 59:
 
* "Embedding" dapat dilatih dari kumpulan gambar yang disediakan oleh pengguna, dan memungkinkan model menghasilkan gambar yang mirip secara visual setiap kali nama sematan digunakan dalam perintah pembuatan.<ref>{{Cite web|last=Dave James|date=October 28, 2022|title=I thrashed the RTX 4090 for 8 hours straight training Stable Diffusion to paint like my uncle Hermann|url=https://www.pcgamer.com/nvidia-rtx-4090-stable-diffusion-training-aharon-kahana/|website=[[PC Gamer]]|archive-url=https://web.archive.org/web/20221109154310/https://www.pcgamer.com/nvidia-rtx-4090-stable-diffusion-training-aharon-kahana/|archive-date=November 9, 2022|url-status=live}}</ref> Penyematan didasarkan pada konsep "inversi tekstual" yang dikembangkan oleh para peneliti dari [[Universitas Tel Aviv]] pada tahun 2022 dengan dukungan dari [[NVIDIA|Nvidia]], di mana representasi vektor untuk token tertentu yang digunakan oleh pembuat enkode teks model ditautkan ke kata-kata semu baru. Penyematan dapat digunakan untuk mengurangi bias dalam model aslinya, atau meniru gaya visual tertentu.
* "Hypernetwork" adalah jaringan saraf pra-pelatihan kecil yang diterapkan ke berbagai titik dalam jaringan saraf yang lebih besar, dan mengacu pada teknik yang dibuat oleh pengembang [[NovelAI]] Kurumuz pada tahun 2021, awalnya ditujukan untuk [[Transformer (model pembelajaran mesin)|model transformator]] pembuatan teks. Hypernetwork mengarahkan hasil ke arah tertentu, memungkinkan model berbasis Stable Diffusion untuk meniru gaya seni [[seniman]] tertentu, bahkan jika seniman tersebut tidak dikenali oleh model aslinya; mereka memproses gambar dengan menemukan area kunci yang penting seperti rambut dan mata, lalu menambal area tersebut di ruang laten sekunder.<ref>{{Cite web|date=October 11, 2022|title=NovelAI Improvements on Stable Diffusion|url=https://blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac|website=NovelAI|archive-url=https://archive.today/20221027041603/https://blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac|archive-date=October 27, 2022|url-status=live}}</ref>
* [[DreamBooth]] adalah model generasi pembelajaran mendalam yang dikembangkan oleh para peneliti dari [[Google|Google Research]] dan [[Universitas Boston]] pada tahun 2022 yang dapat menyempurnakan model untuk menghasilkan keluaran yang dipersonalisasi dan presisi yang menggambarkan subjek tertentu, mengikuti pelatihan melalui serangkaian gambar yang menggambarkan subjek tersebut.<ref>{{Cite web|last=Yuki Yamashita|date=September 1, 2022|title=愛犬の合成画像を生成できるAI 文章で指示するだけでコスプレ 米Googleが開発|url=https://www.itmedia.co.jp/news/articles/2209/01/news041.html|website=ITmedia Inc.|language=ja|archive-url=https://web.archive.org/web/20220831232021/https://www.itmedia.co.jp/news/articles/2209/01/news041.html|archive-date=August 31, 2022|url-status=live}}</ref>
 
Baris 110:
ControlNet<ref name="controlnet-paper">{{Cite arXiv|title=Adding Conditional Control to Text-to-Image Diffusion Models|date=10 February 2023}}</ref> adalah sebuah arsitektur jaringan saraf yang dirancang untuk mengelola model difusi dengan memasukkan kondisi tambahan. Ini menduplikasi bobot blok jaringan saraf menjadi salinan "terkunci" dan salinan "dapat dilatih". Salinan "dapat dilatih" mempelajari kondisi yang diinginkan, sedangkan salinan "terkunci" mempertahankan model aslinya. Konvolusi nol" adalah konvolusi 1×1 dengan bobot dan bias diinisialisasi ke nol. Sebelum pelatihan, semua konvolusi nol menghasilkan output nol, mencegah distorsi yang disebabkan oleh ControlNet. Metode ini memungkinkan pelatihan pada perangkat berskala kecil atau bahkan perangkat pribadi.
 
=== LoRA (Low-Rank Adaptation) ===
== Rilis ==
LoRA (Low-Rank Adaptation) merupakan sebuah teknik yang digunakan dalam pelatihan model pembelajaran mesin, terutama model bahasa besar (Large Language Models/LLMs), untuk mengurangi kompleksitas komputasi dan kebutuhan penyimpanan tanpa mengorbankan performa. LoRA memanfaatkan dekomposisi matriks dengan pangkat rendah untuk memperbarui hanya sebagian dari parameter model yang besar, sehingga mempercepat proses fine-tuning dan membuatnya lebih efisien dalam hal penggunaan sumber daya.<ref>{{Cite journal|last=Yuanzhi Li|first=Edward Hu|date=2021-10-16|title=LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS|url=https://arxiv.org/pdf/2106.09685|journal=LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS|volume=Version 2|pages=26}}</ref>
Rilis model meliputi:
 
Dalam model deep learning konvensional, proses fine-tuning sering kali membutuhkan pembaruan seluruh parameter model, yang memerlukan sumber daya komputasi besar dan memori yang tinggi. LoRA mengatasi hal ini dengan memproyeksikan perubahan parameter model ke dalam ruang pangkat rendah, di mana perubahan kecil dan terarah dapat diwakili secara efisien dengan parameter yang lebih sedikit.
V1.4, Agustus 2022<ref>{{Cite web|title=CompVis/stable-diffusion-v1-4 · Hugging Face|url=https://huggingface.co/CompVis/stable-diffusion-v1-4|website=huggingface.co|access-date=2023-08-17}}</ref>
 
Dalam praktiknya, LoRA menguraikan matriks besar dari parameter model menjadi dua matriks dengan pangkat lebih rendah, sehingga memperkecil dimensi parameter yang diperbarui. Dengan demikian, teknik ini mempertahankan performa model yang baik pada berbagai tugas, sekaligus mengurangi overhead komputasi dan memori yang diperlukan selama proses adaptasi atau fine-tuning.
V1.5, Oktober 2022<ref>{{Cite web|title=runwayml/stable-diffusion-v1-5 · Hugging Face|url=https://huggingface.co/runwayml/stable-diffusion-v1-5|website=huggingface.co|access-date=2023-08-17}}</ref>
 
LoRA telah menjadi populer dalam aplikasi seperti penyesuaian model bahasa besar pada domain spesifik, di mana pengurangan sumber daya yang dibutuhkan sangat penting untuk penerapan yang lebih luas dan efisien.
V2.0, November 2022<ref>{{Cite web|title=stabilityai/stable-diffusion-2 · Hugging Face|url=https://huggingface.co/stabilityai/stable-diffusion-2|website=huggingface.co|access-date=2023-08-17}}</ref>
 
== Rilis ==
V2.1, Desember 2022<ref>{{Cite web|title=stabilityai/stable-diffusion-2-1 · Hugging Face|url=https://huggingface.co/stabilityai/stable-diffusion-2-1|website=huggingface.co|access-date=2023-08-17}}</ref>
Rilis model meliputi:
 
SDXL* 1V1.04, JuliAgustus 20232022<ref>{{Cite web|title=stabilityaiCompVis/stable-diffusion-xlv1-base-1.04 · Hugging Face|url=https://huggingface.co/stabilityaiCompVis/stable-diffusion-xlv1-base-1.04|website=huggingface.co|access-date=2023-08-17}}</ref>
* V1.45, AgustusOktober 2022<ref>{{Cite web|title=CompVisrunwayml/stable-diffusion-v1-45 · Hugging Face|url=https://huggingface.co/CompVisrunwayml/stable-diffusion-v1-45|website=huggingface.co|access-date=2023-08-17}}</ref>
* V2.0, November 2022<ref>{{Cite web|title=stabilityai/stable-diffusion-2 · Hugging Face|url=https://huggingface.co/stabilityai/stable-diffusion-2|website=huggingface.co|access-date=2023-08-17}}</ref>
V1* V2.51, OktoberDesember 2022<ref>{{Cite web|title=runwaymlstabilityai/stable-diffusion-v12-51 · Hugging Face|url=https://huggingface.co/runwaymlstabilityai/stable-diffusion-v12-51|website=huggingface.co|access-date=2023-08-17}}</ref>
V2.* SDXL 1.0, DesemberJuli 20222023<ref>{{Cite web|title=stabilityai/stable-diffusion-2xl-base-1.0 · Hugging Face|url=https://huggingface.co/stabilityai/stable-diffusion-2xl-base-1.0|website=huggingface.co|access-date=2023-08-17}}</ref>
 
== Penggunaan dan kontroversi ==
Baris 144 ⟶ 149:
 
== Referensi ==
<references group="" responsive="1"></references>
</references>
 
== Pranala luar ==