Stable Diffusion: Perbedaan antara revisi

Konten dihapus Konten ditambahkan
Arsitektur: Menambahkan informasi peningkatan dari SDXL
Baris 49:
 
=== Keterbatasan ===
Stable Diffusion memiliki masalah dengan degradasi dan ketidakakuratan dalam skenario tertentu. Rilis awal model ini dilatih pada kumpulan data yang terdiri dari gambar beresolusi 512×512, yang berarti bahwa kualitas gambar yang dihasilkan menurun drastis saat spesifikasi pengguna menyimpang dari resolusi 512×512 yang "diharapkan";<ref name="diffusers">{{Cite web|title=Stable Diffusion with 🧨 Diffusers|url=https://huggingface.co/blog/stable_diffusion|website=huggingface.co|access-date=2022-10-31}}</ref> pembaruan versi 2.0 dari model Stable Diffusion kemudian memperkenalkan kemampuan untuk menghasilkan gambar secara alami pada resolusi 768×768. <ref name="release2.0">{{Cite web|title=Stable Diffusion 2.0 Release|url=https://stability.ai/blog/stable-diffusion-v2-release|website=stability.ai|archive-url=https://web.archive.org/web/20221210062729/https://stability.ai/blog/stable-diffusion-v2-release|archive-date=December 10, 2022|url-status=live}}</ref> Tantangan lain adalah dalam menghasilkan anggota tubuh manusia karena kualitas data anggota tubuh yang buruk di data LAION (umumnya terlihat pada tangan).<ref>{{Cite web|title=LAION|url=https://laion.ai/|website=laion.ai|language=en|access-date=2022-10-31}}</ref> Keterbatasan pada Stable Diffusion mulai diatasi secara perlahan dengan model versi SDXL yang dirilis pada tanggal 26 Juli 2023, SDXL mendukung gambar beresolusi 1024x1024 dan menghasilkan anggota tubuh dan teks yang lebih sempurna.<ref>{{Cite web|title=Announcing SDXL 1.0|url=https://stability.ai/blog/stable-diffusion-sdxl-1-announcement|website=Stability AI|language=en-GB|access-date=2023-08-18}}</ref>
 
Keterjangkauan untuk pengembang individu juga bisa menjadi masalah. Untuk menyesuaikan model untuk kasus penggunaan baru yang tidak termasuk dalam kumpulan data, seperti membuat karakter [[anime]] ("waifu difusion"), <ref>{{Cite web|title=hakurei/waifu-diffusion · Hugging Face|url=https://huggingface.co/hakurei/waifu-diffusion|website=huggingface.co|access-date=2022-10-31}}</ref> data baru dan pelatihan lebih lanjut diperlukan. Adaptasi penyempurnaan terhadap Stable Diffusion yang dibuat melalui pelatihan ulang tambahan telah digunakan untuk berbagai kasus penggunaan yang berbeda, mulai dari pencitraan medis hingga [[Riffusion|musik yang dihasilkan dengan algoritme]].<ref>{{Cite web|last=Seth Forsgren|last2=Hayk Martiros|title=Riffusion - Stable diffusion for real-time music generation|url=https://www.riffusion.com/about|website=Riffusion|archive-url=https://web.archive.org/web/20221216092717/https://www.riffusion.com/about|archive-date=December 16, 2022|url-status=live}}</ref> Namun, proses penyempurnaan ini sensitif terhadap kualitas data baru; gambar beresolusi rendah atau resolusi yang berbeda dari data asli tidak hanya dapat gagal mempelajari tugas baru tetapi juga menurunkan kinerja model secara keseluruhan. Bahkan ketika model dilatih lebih lanjut terhadap kumpulan gambar berkualitas tinggi, sulit bagi individu untuk menjalankan model dalam perangkat elektronik tipe konsumen. Misalnya, proses pelatihan waifu-diffusion membutuhkan minimal kapasitas memori grafis sebesar 30 GB,<ref>{{Citation|last=Mercurio|first=Anthony|title=Waifu Diffusion|date=2022-10-31|url=https://github.com/harubaru/waifu-diffusion/blob/6bf942eb6368ebf6bcbbb24b6ba8197bda6582a0/docs/en/training/README.md|access-date=2022-10-31}}</ref> yang melebihi sumber daya yang disediakan di kartu grafis tipe konsumen.<ref>{{Cite web|last=Smith|first=Ryan|title=NVIDIA Quietly Launches GeForce RTX 3080 12GB: More VRAM, More Power, More Money|url=https://www.anandtech.com/show/17204/nvidia-quietly-launches-geforce-rtx-3080-12gb-more-vram-more-power-more-money|website=www.anandtech.com|access-date=2022-10-31}}</ref>
 
Pencipta Stable Diffusion mengakui potensi [[bias algoritma]], karena model tersebut dilatih pada gambar yang kebanyakan memiliki deskripsi bahasa Inggris.<ref name="stable-diffusion-model-card-1-4">{{Cite web|title=CompVis/stable-diffusion-v1-4 · Hugging Face|url=https://huggingface.co/CompVis/stable-diffusion-v1-4|website=huggingface.co|access-date=2022-11-02}}</ref> Akibatnya, gambar yang dihasilkan memperkuat bias sosial yang berasal dari perspektif budaya Barat, karena pembuatnya mencatat bahwa model tersebut kekurangan data dari komunitas dan budaya lain.<ref name="stable-diffusion-model-card-1-4" />
Baris 117:
Karena gaya seni dan [[Komposisi (seni rupa)|komposisi]] tidak memiliki hak cipta, seringkali ditafsirkan bahwa pengguna Stable Diffusion yang menghasilkan gambar karya seni tidak dapat dianggap melanggar hak cipta terhadap karya visual yang serupa.<ref name="automaton" /> Namun, individu yang digambarkan dalam gambar yang dihasilkan dapat dilindungi oleh hak kepribadian jika gambar mereka digunakan, dan kekayaan intelektual seperti logo merek yang dapat dikenali masih dilindungi oleh hak merek dagang.<ref name="automaton">{{Cite web|date=August 24, 2022|title=高性能画像生成AI「Stable Diffusion」無料リリース。「kawaii」までも理解し創造する画像生成AI|url=https://automaton-media.com/articles/newsjp/20220824-216074/|website=Automaton Media|language=ja}}</ref> Namun, sejumlah seniman visual menyatakan kekhawatiran bahwa penggunaan luas perangkat lunak sintesis gambar seperti Stable Diffusion dapat berpotensi menyebabkan seniman manusia, bersama dengan fotografer, model, sinematografer, dan aktor, secara bertahap kehilangan viabilitas komersial terhadap pesaing berbasis [[kecerdasan buatan]].
 
Stable Diffusion lebih permisif dalam jenis konten yang mungkin dihasilkan pengguna, seperti gambar kekerasan atau eksplisit secara seksual, dibandingkan dengan produk kecerdasan buatan generatif komersil lainnya.<ref name="bijapan">{{Cite web|last=Ryo Shimizu|date=August 26, 2022|title=Midjourneyを超えた? 無料の作画AI「 #StableDiffusion 」が「AIを民主化した」と断言できる理由|url=https://www.businessinsider.jp/post-258369|website=Business Insider Japan|language=ja}}</ref> Mengatasi kekhawatiran bahwa model tersebut dapat digunakan untuk tujuan yang kasar, CEO Stability AI, Emad Mostaque, berpendapat bahwa "[itu] adalah tanggung jawab masyarakat, apakah mereka etis, bermoral, dan legal dalam cara mereka mengoperasikan teknologi ini", dan menempatkan kemampuan Stable Diffusion ke tangan publik akan menghasilkan teknologi yang memberikan manfaat, terlepas dari potensi konsekuensi negatifnya. Selain itu, Mostaque berpendapat bahwa niat di balik tersedianya Stable Diffusion secara terbuka adalah untuk mengakhiri kontrol dan dominasi korporasi atas teknologi tersebut, yang sebelumnya hanya mengembangkan sistem kecerdasan buatan tertutup untuk sintesis gambar. <ref name="bijapan" /> Hal ini tercermin dari fakta bahwa batasan yang diterapkan oleh Stability AI pada konten yang dihasilkan pengguna dapat dengan mudah dilewati karena ketersediaan kode sumber. <ref name=":13">{{Cite web|last=Cai|first=Kenrick|title=Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion|url=https://www.forbes.com/sites/kenrickcai/2022/09/07/stability-ai-funding-round-1-billion-valuation-stable-diffusion-text-to-image/|website=Forbes|language=en|access-date=2022-10-31}}</ref>
 
== Gugatan ==
Pada Januari 2023, tiga seniman: Sarah Andersen, Kelly McKernan, dan Karla Ortiz mengajukan gugatan [[pelanggaran hak cipta]] terhadap Stability AI, [[Midjourney]], dan [[DeviantArt]], mengklaim bahwa perusahaan-perusahaan tersebut telah melanggar hak jutaan artis dengan melatih model kecerdasan buatan pada lima miliar gambar diambil dari web tanpa persetujuan dari seniman aslinya. <ref>{{Cite web|last=Vincent|first=James|date=January 16, 2023|title=AI art tools Stable Diffusion and Midjourney targeted with copyright lawsuit|url=https://www.theverge.com/2023/1/16/23557098/generative-ai-art-copyright-legal-lawsuit-stable-diffusion-midjourney-deviantart|website=The Verge}}</ref> Di bulan yang sama, Stability AI juga digugat oleh [[Getty Images]] karena menggunakan gambarnya dalam data pelatihan. <ref name="CNN-Getty">{{Cite web|last=Korn|first=Jennifer|date=2023-01-17|title=Getty Images suing the makers of popular AI art tool for allegedly stealing photos|url=https://www.cnn.com/2023/01/17/tech/getty-images-stability-ai-lawsuit/index.html|website=CNN|language=en|access-date=2023-01-22}}</ref>
 
Pada Juli 2023, Hakim Distrik AS [[William Orrick III|William Orrick]] menolak sebagian besar tuntutan hukum yang diajukan oleh Andersen, McKernan, dan Ortiz tetapi mengizinkan mereka mengajukan keluhan baru.<ref name="Reuters-SDLawsuit">{{Cite news|last=Brittain|first=Blake|date=2023-07-19|title=US judge finds flaws in artists' lawsuit against AI companies|url=https://www.reuters.com/legal/litigation/us-judge-finds-flaws-artists-lawsuit-against-ai-companies-2023-07-19/|work=Reuters|language=en|access-date=2023-08-06}}</ref>
 
== Lisensi ==
Tidak seperti model lainnya seperti DALL-E, Stable Diffusion membuat kode sumbernya tersedia<ref name="stability">{{Cite web|title=Stable Diffusion Public Release|url=https://stability.ai/blog/stable-diffusion-public-release|website=Stability.Ai|archive-url=https://web.archive.org/web/20220830210535/https://stability.ai/blog/stable-diffusion-public-release|archive-date=2022-08-30|access-date=2022-08-31|url-status=live}}</ref><ref name="stable-diffusion-github">{{Cite web|date=17 September 2022|title=Stable Diffusion Repository on GitHub|url=https://github.com/CompVis/stable-diffusion|publisher=CompVis - Machine Vision and Learning Research Group, LMU Munich|access-date=17 September 2022}}</ref> beserta dengan model (bobot pralatih). Lisensi yang berlaku adalah Creative ML OpenRAIL-M license, sebuah penerapan lisensi kecerdasan buatan yang memiliki misi "bertanggung jawab sampai ke model".<ref>{{Cite web|date=18 August 2022|title=From RAIL to Open RAIL: Topologies of RAIL Licenses|url=https://www.licenses.ai/blog/2022/8/18/naming-convention-of-responsible-ai-licenses|website=Responsible AI Licenses (RAIL)|language=en-US|access-date=2023-02-20}}</ref> Lisensi ini melarang sejumlah kasus penggunaan, seperti tindakan kriminal, [[fitnah]], [[pelecehan]], [[doksing]], "mengeksploitasi ... anak di bawah umur", memberikan nasihat medis, membuat kewajiban hukum secara otomatis, memproduksi bukti hukum, dan "mendiskriminasi atau melakukan tindakan kekerasan terhadap individu dan kelompok berdasarkan ... perilaku sosial atau ... karakteristik pribadi atau kepribadian ... [atau] kategori dan karakteristik yang dilindungi hukum".<ref name="washingtonpost">{{Cite news|date=2022-08-30|title=Ready or not, mass video deepfakes are coming|url=https://www.washingtonpost.com/technology/2022/08/30/deep-fake-video-on-agt/|work=The Washington Post|archive-url=https://web.archive.org/web/20220831115010/https://www.washingtonpost.com/technology/2022/08/30/deep-fake-video-on-agt/|archive-date=2022-08-31|access-date=2022-08-31|url-status=live}}</ref><ref>{{Cite web|title=License - a Hugging Face Space by CompVis|url=https://huggingface.co/spaces/CompVis/stable-diffusion-license|website=huggingface.co|archive-url=https://web.archive.org/web/20220904215616/https://huggingface.co/spaces/CompVis/stable-diffusion-license|archive-date=2022-09-04|access-date=2022-09-05|url-status=live}}</ref> Pengguna memiliki hak terhadap gambar keluaran dan diperkenankan menggunakannya secara komersil.<ref>{{Cite web|last=Katsuo Ishida|date=August 26, 2022|title=言葉で指示した画像を凄いAIが描き出す「Stable Diffusion」 ~画像は商用利用も可能|url=https://forest.watch.impress.co.jp/docs/review/1434893.html|website=Impress Corporation|language=ja}}</ref>
 
== Lihat pula ==