Penyulihbentuk praterlatih generatif: Perbedaan antara revisi

Jelajahi riwayat secara interaktif

Konten dihapus Konten ditambahkan

VisualTeks wiki

Revisi per 29 Maret 2024 06.42 sunting Aleirezkiette (bicara \| kontrib) 10.122 suntingan Dibuat dengan menerjemahkan halaman "Generative pre-trained transformer" Tag: halaman dengan galat kutipan Terjemahan Konten Terjemahan Konten v2		Revisi terkini sejak 13 April 2024 16.29 sunting balikkan InternetArchiveBot (bicara \| kontrib) Bot 653.587 suntingan Add 1 book for Wikipedia:Pemastian (20240413sim)) #IABot (v2.0.9.5) (GreenC bot
(2 revisi perantara oleh 2 pengguna tidak ditampilkan)
Baris 1: [[Berkas:Full_GPT_architecture.~~png~~svg\|ka\|jmpl\| Model GPT asli]]▼ ▲[[Berkas:Full_GPT_architecture.png\|ka\|jmpl\| Model GPT asli]] '''Penyulihbentuk praterlatih generatif''' ('''PPG''') atau GPT adalah jenis [[model bahasa besar]] (LLM) <ref name=":1">{{Cite web\|last=Haddad\|first=Mohammed\|title=How does GPT-4 work and how can you start using it in ChatGPT?\|url=https://www.aljazeera.com/news/2023/3/15/how-do-ai-models-like-gpt-4-work-and-how-can-you-start-using-it\|website=www.aljazeera.com}}</ref> <ref name=":0">{{Cite web\|date=9 January 2023\|title=Generative AI: a game-changer society needs to be ready for\|url=https://www.weforum.org/agenda/2023/01/davos23-generative-ai-a-game-changer-industries-and-society-code-developers/\|website=World Economic Forum}}</ref> <ref name=":4">{{Cite magazine\|magazine=Time}}</ref> dan kerangka kerja yang menonjol untuk [[kecerdasan buatan generatif]] . <ref>{{Cite web\|last=Hu\|first=Luhui\|date=November 15, 2022\|title=Generative AI and Future\|url=https://pub.towardsai.net/generative-ai-and-future-c3b1695876f2\|website=Medium}}</ref> <ref>{{Cite web\|title=CSDL \| IEEE Computer Society\|url=https://www.computer.org/csdl/magazine/co/2022/10/09903869/1H0G6xvtREk\|website=www.computer.org}}</ref> Mereka adalah jaringan saraf tiruan yang digunakan dalam tugas [[Pengolahan bahasa alami\|pemrosesan bahasa alami]] . <ref>{{Cite web\|title=LibGuides: Using AI Language Models : ChatGPT\|url=https://hallmark.libguides.com/c.php?g=1312147&p=9644939}}</ref> GPT didasarkan pada arsitektur penyulihbentuk, dilatih sebelumnya pada kumpulan data besar berisi teks tak berlabel, dan mampu menghasilkan konten baru yang mirip manusia. <ref name=":0" /> <ref name=":4" /> Pada tahun 2023, sebagian besar LLM memiliki karakteristik ini <ref>{{Cite web\|last=Toews\|first=Rob\|title=The Next Generation Of Large Language Models\|url=https://www.forbes.com/sites/robtoews/2023/02/07/the-next-generation-of-large-language-models/\|website=Forbes}}</ref> dan terkadang disebut secara luas sebagai GPT. <ref>{{Cite web\|last=Mckendrick\|first=Joe\|date=March 13, 2023\|title=Most Jobs Soon To Be 'Influenced' By Artificial Intelligence, Research Out Of OpenAI And University Of Pennsylvania Suggests\|url=https://www.forbes.com/sites/joemckendrick/2023/03/26/most-jobs-soon-to-be-influenced-by-artificial-intelligence-research-out-of-openai-and-university-of-pennsylvania-suggests/?sh=420f9c8f73c7\|website=[[Forbes]]}}</ref> Baris 12 ⟶ 11: Pra-pelatihan generatif (GP) adalah konsep yang sudah lama ada dalam aplikasi pembelajaran mesin. <ref name="schmidhuber1992">{{Cite journal\|last=Schmidhuber\|first=Jürgen\|year=1992\|title=Learning complex, extended sequences using the principle of history compression\|url=ftp://ftp.idsia.ch/pub/juergen/chunker.pdf\|journal=Neural Computation\|volume=4\|issue=2\|pages=234–242\|doi=10.1162/neco.1992.4.2.234}}</ref> <ref>{{Cite journal\|last=Hinton (et-al)\|first=Geoffrey\|date=October 15, 2012\|title=Deep neural networks for acoustic modeling in speech recognition\|url=http://cs224d.stanford.edu/papers/maas_paper.pdf\|journal=IEEE Signal Processing Magazine\|volume=Digital Object Identifier 10.1109/MSP.2012.2205597\|doi=10.1109/MSP.2012.2205597}}</ref> <ref>{{Cite journal\|last=Deng\|first=Li\|date=2014-01-22\|title=A tutorial survey of architectures, algorithms, and applications for deep learning \| APSIPA Transactions on Signal and Information Processing \| Cambridge Core\|journal=Apsipa Transactions on Signal and Information Processing\|publisher=Cambridge.org\|volume=3\|pages=e2\|doi=10.1017/atsip.2013.9}}</ref> Awalnya digunakan sebagai bentuk [[Pemelajaran semi terawasi\|pembelajaran semiselia]], karena model dilatih terlebih dahulu pada kumpulan data yang tidak berlabel (langkah ''pra-pelatihan'' ) dengan mempelajari cara ''menghasilkan'' titik data dalam kumpulan data tersebut, lalu dilatih untuk mengklasifikasikan kumpulan data yang diberi label. <ref>{{Cite journal\|last=Erhan\|first=Dumitru\|last2=Courville\|first2=Aaron\|last3=Bengio\|first3=Yoshua\|last4=Vincent\|first4=Pascal\|date=2010-03-31\|title=Why Does Unsupervised Pre-training Help Deep Learning?\|url=https://proceedings.mlr.press/v9/erhan10a.html\|journal=Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics\|language=en\|publisher=JMLR Workshop and Conference Proceedings\|pages=201–208}}</ref> Meskipun penyulihbentuk linier yang tidak dinormalisasi sudah ada sejak tahun 1992, <ref name="transform19922">{{Cite journal\|last=Schmidhuber\|first=Jürgen\|date=1992\|title=Learning to control fast-weight memories: an alternative to recurrent nets.\|url=https://archive.org/details/sim_neural-computation_1992-01_4_1/page/131\|journal=Neural Computation\|volume=4\|issue=1\|pages=131–139\|doi=10.1162/neco.1992.4.1.131}}</ref> arsitektur penyulihbentuk modern baru tersedia pada tahun 2017 ketika dipublikasikan oleh para peneliti di [[Google]] dalam makalah " [[Hanya Perhatian yang Anda Butuhkan\|Attention Is All You Need]] ". <ref>{{Cite journal\|last=Vaswani\|first=Ashish\|last2=Shazeer\|first2=Noam\|last3=Parmar\|first3=Niki\|last4=Uszkoreit\|first4=Jakob\|last5=Jones\|first5=Llion\|last6=Gomez\|first6=Aidan N\|author-link6=Aidan Gomez\|last7=Kaiser\|first7=Łukasz\|last8=Polosukhin\|first8=Illia\|date=2017\|title=Attention is All you Need\|url=https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf\|journal=Advances in Neural Information Processing Systems\|publisher=Curran Associates, Inc.\|volume=30}}</ref> Perkembangan tersebut menyebabkan munculnya model bahasa besar seperti [[BERT (model bahasa)\|BERT]] pada tahun 2018 <ref>{{Cite journal\|last=Devlin\|first=Jacob\|last2=Chang\|first2=Ming-Wei\|last3=Lee\|first3=Kenton\|last4=Toutanova\|first4=Kristina\|date=May 24, 2019\|title=BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding\|journal=Association for Computational Linguistics\|arxiv=1810.04805v2}}</ref> yang merupakan transformator terlatih (PT) tetapi tidak dirancang untuk menjadi [[Kecerdasan buatan generatif\|generatif]] (BERT adalah model "hanya encoder"). <ref>{{Cite web\|last=Naik\|first=Amit Raja\|date=September 23, 2021\|title=Google Introduces New Architecture To Reduce Cost Of Transformers\|url=https://analyticsindiamag.com/google-introduces-new-architecture-to-reduce-cost-of-transformers/\|website=Analytics India Magazine}}</ref> Pada waktu yang sama, pada tahun 2018, [[OpenAI]] menerbitkan artikelnya yang berjudul "Meningkatkan Pemahaman Bahasa dengan Pra-Pelatihan Generatif", yang memperkenalkan sistem penyulihbentuk praterlatih generatif (GPT) (" [[GPT-1]] ") yang pertama. <ref name="gpt1paper2">{{Cite web\|last=Radford\|first=Alec\|last2=Narasimhan\|first2=Karthik\|date=11 June 2018\|title=Improving Language Understanding by Generative Pre-Training\|url=https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf\|publisher=[[OpenAI]]\|page=12\|archive-url=https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf\|archive-date=26 January 2021\|access-date=23 January 2021\|last3=Salimans\|first3=Tim\|last4=Sutskever\|first4=Ilya\|url-status=live}}</ref> Sebelum arsitektur berbasis penyulihbentuk model neural NLP ( [[Pengolahan bahasa alami\|pemrosesan bahasa alami]] ) dengan kinerja terbaik biasanya menggunakan [[Pemelajaran terarah\|pembelajaran yang diawasi]] dari sejumlah besar data yang diberi label secara manual. Ketergantungan pada pembelajaran yang diawasi membatasi penggunaannya pada kumpulan data yang tidak dianotasi dengan baik, dan juga menjadikannya sangat mahal dan memakan waktu untuk melatih model bahasa yang sangat besar. <ref name="gpt1paper3">{{Cite web\|last=Radford\|first=Alec\|last2=Narasimhan\|first2=Karthik\|date=11 June 2018\|title=Improving Language Understanding by Generative Pre-Training\|url=https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf\|publisher=[[OpenAI]]\|page=12\|archive-url=https://web.archive.org/web/20210126024542/https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf\|archive-date=26 January 2021\|access-date=23 January 2021\|last3=Salimans\|first3=Tim\|last4=Sutskever\|first4=Ilya\|url-status=live}}</ref> Baris 41 ⟶ 40: \|- \| GPT-1 \| ~~Dekoder~~Pengawasandi ~~Transformer~~di penyulihbentuk 12 tingkat, berkepala 12 (tanpa ~~encoder~~pereksandi), diikuti oleh linear-softmax. \| 117 juta \| BookCorpus : Teks 4,5 GB, dari 7000 buku yang belum diterbitkan dari berbagai genre.