Stable Diffusion: Perbedaan antara revisi
Konten dihapus Konten ditambahkan
Baris 51:
Stable Diffusion memiliki masalah dengan degradasi dan ketidakakuratan dalam skenario tertentu. Rilis awal model ini dilatih pada kumpulan data yang terdiri dari gambar beresolusi 512×512, yang berarti bahwa kualitas gambar yang dihasilkan menurun drastis saat spesifikasi pengguna menyimpang dari resolusi 512×512 yang "diharapkan";<ref name="diffusers">{{Cite web|title=Stable Diffusion with 🧨 Diffusers|url=https://huggingface.co/blog/stable_diffusion|website=huggingface.co|access-date=2022-10-31}}</ref> pembaruan versi 2.0 dari model Stable Diffusion kemudian memperkenalkan kemampuan untuk menghasilkan gambar secara alami pada resolusi 768×768. <ref name="release2.0">{{Cite web|title=Stable Diffusion 2.0 Release|url=https://stability.ai/blog/stable-diffusion-v2-release|website=stability.ai|archive-url=https://web.archive.org/web/20221210062729/https://stability.ai/blog/stable-diffusion-v2-release|archive-date=December 10, 2022|url-status=live}}</ref> Tantangan lain adalah dalam menghasilkan anggota tubuh manusia karena kualitas data anggota tubuh yang buruk di data LAION (umumnya terlihat pada tangan).<ref>{{Cite web|title=LAION|url=https://laion.ai/|website=laion.ai|language=en|access-date=2022-10-31}}</ref>
Keterjangkauan untuk pengembang individu juga bisa menjadi masalah. Untuk menyesuaikan model untuk kasus penggunaan baru yang tidak termasuk dalam kumpulan data, seperti membuat karakter [[anime]] ("waifu difusion"), <ref>{{Cite web|title=hakurei/waifu-diffusion · Hugging Face|url=https://huggingface.co/hakurei/waifu-diffusion|website=huggingface.co|access-date=2022-10-31}}</ref> data baru dan pelatihan lebih lanjut diperlukan. Adaptasi penyempurnaan terhadap Stable Diffusion yang dibuat melalui pelatihan ulang tambahan telah digunakan untuk berbagai kasus penggunaan yang berbeda, mulai dari pencitraan medis hingga [[Riffusion|musik yang dihasilkan dengan algoritme]].<ref>{{Cite web|last=Seth Forsgren|last2=Hayk Martiros|title=Riffusion - Stable diffusion for real-time music generation|url=https://www.riffusion.com/about|website=Riffusion|archive-url=https://web.archive.org/web/20221216092717/https://www.riffusion.com/about|archive-date=December 16, 2022|url-status=live}}</ref> Namun, proses penyempurnaan ini sensitif terhadap kualitas data baru; gambar beresolusi rendah atau resolusi yang berbeda dari data asli tidak hanya dapat gagal mempelajari tugas baru tetapi juga menurunkan kinerja model secara keseluruhan. Bahkan ketika model dilatih lebih lanjut terhadap kumpulan gambar berkualitas tinggi, sulit bagi individu untuk menjalankan model dalam perangkat elektronik tipe konsumen. Misalnya, proses pelatihan waifu-diffusion membutuhkan minimal kapasitas memori grafis sebesar 30 GB,<ref>{{Citation|last=Mercurio|first=Anthony|title=Waifu Diffusion|date=2022-10-31|url=https://github.com/harubaru/waifu-diffusion/blob/6bf942eb6368ebf6bcbbb24b6ba8197bda6582a0/docs/en/training/README.md|access-date=2022-10-31}}</ref> yang melebihi sumber daya yang disediakan di kartu grafis tipe konsumen.
Pencipta Stable Diffusion mengakui potensi [[bias algoritma]], karena model tersebut dilatih pada gambar yang kebanyakan memiliki deskripsi bahasa Inggris.<ref name="stable-diffusion-model-card-1-4">{{Cite web|title=CompVis/stable-diffusion-v1-4 · Hugging Face|url=https://huggingface.co/CompVis/stable-diffusion-v1-4|website=huggingface.co|access-date=2022-11-02}}</ref> Akibatnya, gambar yang dihasilkan memperkuat bias sosial yang berasal dari perspektif budaya Barat, karena pembuatnya mencatat bahwa model tersebut kekurangan data dari komunitas dan budaya lain.<ref name="stable-diffusion-model-card-1-4" />
Baris 63:
== Kemampuan ==
Model Stable Diffusion mendukung kemampuan untuk menghasilkan gambar baru dengan menggunkan perintah teks yang berisikan elemen-elemen yang akan disertakan atau dikecualikan dari keluaran.<ref name="stable-diffusion-github2">{{cite web|date=17 September 2022|title=Stable Diffusion Repository on GitHub|url=https://github.com/CompVis/stable-diffusion|publisher=CompVis - Machine Vision and Learning Research Group, LMU Munich|access-date=17 September 2022}}</ref> Gambar yang sudah ada dapat digambar ulang oleh model untuk menambahkan elemen baru yang berdasarkan sebuah perintah teks (proses ini dikenal sebagai "pembuatan gambar terpandu"<ref>{{cite arXiv|date=August 2, 2021|first1=Chenlin|last1=Meng|first2=Yutong|last2=He|first3=Yang|last3=Song|first4=Jiaming|last4=Song|first5=Jiajun|last5=Wu|first6=Jun-Yan|last6=Zhu|first7=Stefano|last7=Ermon|title=SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations|class=cs.CV|eprint=2108.01073}}</ref>) melalui mekanisme difusi-denoising.<ref name="stable-diffusion-github3">{{cite web|date=17 September 2022|title=Stable Diffusion Repository on GitHub|url=https://github.com/CompVis/stable-diffusion|publisher=CompVis - Machine Vision and Learning Research Group, LMU Munich|access-date=17 September 2022}}</ref> Juga, model ini memungkinkan penggunaan perintah untuk mengubah gambar yang ada dengan teknik inpainting dan outpainting, ketika digunakan dengan antarmuka yang sesuai,
Stable Diffusion disarankan untuk dijalankan dengan 10 GB atau lebih memori grafis, namun pengguna yang memiliki kapasitas memori grafis lebih sedikit dapat memilih untuk memuat bobot dengan presisi [[float16]] ketimbang bobot bawaan dengan presisi [[float32]] dengan kompromi pada performa model yang lebih rendah.<ref name="diffusers2">{{Cite web|title=Stable Diffusion with 🧨 Diffusers|url=https://huggingface.co/blog/stable_diffusion|website=huggingface.co|access-date=2022-10-31}}</ref>
|