Stable Diffusion: Perbedaan antara revisi
Konten dihapus Konten ditambahkan
→Arsitektur: Menambahkan informasi peningkatan dari SDXL |
|||
Baris 38:
Stable Diffusion menggunakan sebuah jenis model difusi yang disebut model difusi laten yang dikembangkan oleh kelompok CompVis di Universitas Ludwig Maximilian München.<ref name="stable-diffusion-github">{{Cite web|date=17 September 2022|title=Stable Diffusion Repository on GitHub|url=https://github.com/CompVis/stable-diffusion|publisher=CompVis - Machine Vision and Learning Research Group, LMU Munich|access-date=17 September 2022}}</ref>
Dengan 860 juta parameter di U-Net dan 123 juta di enkoder teks, Stable Diffusion dianggap relatif ringan menurut standar tahun 2022, dan tidak seperti model difusi lainnya, model ini dapat berjalan pada kartu grafis tipe konsumen.
=== Data latih ===
Stable Diffusion dilatih pada pasangan gambar dan teks yang diambil dari LAION-5B, sebuah kumpulan data yang tersedia untuk umum yang berasal dari data [[Common Crawl]] yang diambil dari web, di mana 5 miliar pasangan gambar-teks diklasifikasikan berdasarkan bahasa dan disaring ke dalam kumpulan data terpisah berdasarkan resolusi, kemungkinan terdapatnya [[Penandaairan digital|tanda air digital]], dan skor "estetika" yang diprediksi (misalnya kualitas visual secara subjektif). <ref name="Waxy">{{Cite web|last=Baio|first=Andy|date=2022-08-30|title=Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator|url=https://waxy.org/2022/08/exploring-12-million-of-the-images-used-to-train-stable-diffusions-image-generator/|website=Waxy.org|language=en-US|access-date=2022-11-02}}</ref> Kumpulan data ini dibuat oleh [[LAION]], organisasi nirlaba Jerman yang menerima dana dari Stability AI.
=== Prosedur pelatihan ===
Baris 49:
=== Keterbatasan ===
Stable Diffusion memiliki masalah dengan degradasi dan ketidakakuratan dalam skenario tertentu. Rilis awal model ini dilatih pada kumpulan data yang terdiri dari gambar beresolusi 512×512, yang berarti bahwa kualitas gambar yang dihasilkan menurun drastis saat spesifikasi pengguna menyimpang dari resolusi 512×512 yang "diharapkan";<ref name="diffusers">{{Cite web|title=Stable Diffusion with 🧨 Diffusers|url=https://huggingface.co/blog/stable_diffusion|website=huggingface.co|access-date=2022-10-31}}</ref> pembaruan versi 2.0 dari model Stable Diffusion kemudian memperkenalkan kemampuan untuk menghasilkan gambar secara alami pada resolusi 768×768. <ref name="release2.0">{{Cite web|title=Stable Diffusion 2.0 Release|url=https://stability.ai/blog/stable-diffusion-v2-release|website=stability.ai|archive-url=https://web.archive.org/web/20221210062729/https://stability.ai/blog/stable-diffusion-v2-release|archive-date=December 10, 2022|url-status=live}}</ref> Tantangan lain adalah dalam menghasilkan anggota tubuh manusia karena kualitas data anggota tubuh yang buruk di data LAION (umumnya terlihat pada tangan).<ref>{{Cite web|title=LAION|url=https://laion.ai/|website=laion.ai|language=en|access-date=2022-10-31}}</ref> Keterbatasan pada Stable Diffusion mulai diatasi secara perlahan dengan model versi SDXL yang dirilis pada tanggal 26 Juli 2023, SDXL mendukung gambar beresolusi 1024x1024 dan menghasilkan anggota tubuh dan teks yang lebih sempurna.<ref>{{Cite web|title=Announcing SDXL 1.0|url=https://stability.ai/blog/stable-diffusion-sdxl-1-announcement|website=Stability AI|language=en-GB|access-date=2023-08-18}}</ref>
Keterjangkauan untuk pengembang individu juga bisa menjadi masalah. Untuk menyesuaikan model untuk kasus penggunaan baru yang tidak termasuk dalam kumpulan data, seperti membuat karakter [[anime]] ("waifu difusion"), <ref>{{Cite web|title=hakurei/waifu-diffusion · Hugging Face|url=https://huggingface.co/hakurei/waifu-diffusion|website=huggingface.co|access-date=2022-10-31}}</ref> data baru dan pelatihan lebih lanjut diperlukan. Adaptasi penyempurnaan terhadap Stable Diffusion yang dibuat melalui pelatihan ulang tambahan telah digunakan untuk berbagai kasus penggunaan yang berbeda, mulai dari pencitraan medis hingga [[Riffusion|musik yang dihasilkan dengan algoritme]].<ref>{{Cite web|last=Seth Forsgren|last2=Hayk Martiros|title=Riffusion - Stable diffusion for real-time music generation|url=https://www.riffusion.com/about|website=Riffusion|archive-url=https://web.archive.org/web/20221216092717/https://www.riffusion.com/about|archive-date=December 16, 2022|url-status=live}}</ref> Namun, proses penyempurnaan ini sensitif terhadap kualitas data baru; gambar beresolusi rendah atau resolusi yang berbeda dari data asli tidak hanya dapat gagal mempelajari tugas baru tetapi juga menurunkan kinerja model secara keseluruhan. Bahkan ketika model dilatih lebih lanjut terhadap kumpulan gambar berkualitas tinggi, sulit bagi individu untuk menjalankan model dalam perangkat elektronik tipe konsumen. Misalnya, proses pelatihan waifu-diffusion membutuhkan minimal kapasitas memori grafis sebesar 30 GB,<ref>{{Citation|last=Mercurio|first=Anthony|title=Waifu Diffusion|date=2022-10-31|url=https://github.com/harubaru/waifu-diffusion/blob/6bf942eb6368ebf6bcbbb24b6ba8197bda6582a0/docs/en/training/README.md|access-date=2022-10-31}}</ref> yang melebihi sumber daya yang disediakan di kartu grafis tipe konsumen.<ref>{{Cite web|last=Smith|first=Ryan|title=NVIDIA Quietly Launches GeForce RTX 3080 12GB: More VRAM, More Power, More Money|url=https://www.anandtech.com/show/17204/nvidia-quietly-launches-geforce-rtx-3080-12gb-more-vram-more-power-more-money|website=www.anandtech.com|access-date=2022-10-31}}</ref>
|