Wikipedia:Unduh basis data: Perbedaan antara revisi

Konten dihapus Konten ditambahkan
Kelson (bicara | kontrib)
Tag: Suntingan perangkat seluler Suntingan peramban seluler Suntingan seluler lanjutan
 
(11 revisi perantara oleh 8 pengguna tidak ditampilkan)
Baris 1:
{{pintas|[[WP:DL]]}}
 
:''Artikel ini adalah tentang cara mengunduh Wikipedia untuk digunakan secara luring''
'''Wikipedia bahasa Indonesia versi offline''' adalah [[Wikipedia bahasa Indonesia]] yang dapat digunakan pada saat komputer tidak terhubung dengan jaringan [[Internet]]. Wikipedia menyediakan seluruh isi basis data untuk pengguna yang berminat. Ini dapat digunakan untuk ''mirroring'', penggunaan pribadi, cadangan (''backup''), atau kueri basis data (misalnya untuk [[Wikipedia:pemeliharaan|pemeliharaan]]). Semua isi teks dilisensikan di bawah [[Lisensi Dokumentasi Bebas GNU]] (GDFL). Gambar dan berkas lainnya tersedia dengan lisensi lain, seperti yang dijelaskan pada masing-masing halaman deskripsi berkasnya. Untuk petunjuk untuk menyesuaikan dengan lisensi mereka, lihat [[Wikipedia:Hak cipta]].
 
== Tempat pengunduhan ==
{{pintas|WP:DUMP<br>[[WP:DUMPS]]}}
 
* Untuk semua proyek Yayasan Wikimedia: [{{URL|http://download.wikimedia.org/ Mengunduh Wikimedia]}}
* Perangkat lunak ''front-end'' untuk Wiki: [[Wikipedia:MediaWiki]].
* Wikipedia bahasa Indonesia: [http://download.wikimedia.org/idwiki/ Mengunduh Wikipedia bahasa Indonesia]
* Perangkat lunak ''back-end' untuk basis data: Unduh [[MySQL]].
<!--==Where do I get...==
* Unduhan berisi Gambar: Lihat bagian dibawah.
* Dumps from any Wikimedia Foundation project: http://download.wikimedia.org/
* English Wikipedia dumps in SQL and XML: http://download.wikimedia.org/enwiki/
** '''pages_articles.xml.bz2 - Current revisions only, no talk or user pages (this is the one you probably want)'''
** pages_current.xml.bz2 - Current revisions only, all pages
** pages_full.xml.bz2/7z - Current revisions, all pages (includes talk and user pages)
** pages-meta-history.xml.bz2 - All revisions, all pages
** abstract.xml.gz - page abstracts
** all_titles_in_ns0.gz - Article titles only
** SQL files for the pages and links are also available
** '''Caution:''' Some dumps may be incomplete - pay attention to such warnings (e.g. "Dump complete, 1 item failed") near the dump file.
* Wiki front-end software: [[Wikipedia:MediaWiki]].
* Database backend software: You want to download [[MySQL]].
* Image dumps: See below.
In the http://download.wikimedia.org/ directory you will find the latest SQL dumps for the projects, not just English. For example, (others exist, just select the appropriate two letter language code and the appropriate project):
* English Wikipedia dumps: http://download.wikimedia.org/enwiki/
* French Wikipedia dumps: http://download.wikimedia.org/frwiki/
* German Wikipedia dumps: http://download.wikimedia.org/dewiki/
 
=== Wikipedia bahasa Indonesia ===
Some other directories (e.g. simple, nostalgia) exist, with the same structure.
''Dump'' basis data Wikipedia bahasa Indonesia dilakukan secara rutin dan berkala oleh Wikimedia Foundation kira-kira setiap 10-20 hari, dan dapat diakses di {{URL|http://download.wikimedia.org/idwiki/}}. Folder <code>latest</code> berisi berkas-berkas hasil ''dump'' terbaru, sedangkan folder-folder lain adalah hasil ''dump'' pada tanggal yang lampau. Setiap berkas terkompresi pada folder-folder ini hanya berisi data teks, berkas-berkas gambar disimpan ditempat yang berbeda (lihat bagian dibawah). Setiap nama berkas menandakan jenis konten yang disimpan :
 
;<code>idwiki-pages-articles.xml.bz2</code>
==Images and uploaded files==
:Kemungkinan besar ini berkas yang Anda butuhkan. Berkas ini hanya berisi revisi terkini, tanpa halaman pembicaraan maupun halaman pengguna. Data templat dan deskripsi gambar pada artikel-artikel juga disimpan dalam berkas ini. Ukuran berkas terkompresi ini sekitar 800MB.
Unlike the article text, many images are not released under GFDL or the public domain. These images are owned by external parties who may not have consented to their use in Wikipedia. Wikipedia uses such images under the doctrine of [[fair use]] under United States law. Use of such images outside the context of '''Wikipedia''' or similar works may be illegal. Also, many images legally require a credit or other attached copyright information, and this copyright information is contained within the text dumps available from [http://download.wikimedia.org/ download.wikimedia.org]. Some images may be restricted to non-commercial use, or may even be licensed exclusively to Wikipedia. Hence, download these images at your own risk. [http://download.wikimedia.org/legal.html Legal]
;<code>pages-meta-current.xml.bz2</code>
: Hanya revisi terkini dari semua halaman (termasuk halaman pembicaraan) termasuk kategori-kategorinya. Ukuran berkas ini sekitar 1GB.
;<code>pages-meta-history.xml.bz2</code>
: Semua revisi, dari semua halaman.
;<code>all-titles-in-ns0.gz</code>
: Hanya judul halaman (termasuk halaman pengalihan)
 
Berkas SQL untuk halaman dan pranala juga tersedia.
As of November 2006, the image dump for the English Wikipedia was about 76GB. -->
 
=== Bahasa dan proyek yang lain ===
Saat ini seluruh konten [[Wikipedia bahasa Indonesia]] dapat diunduh secara gratis dan utuh dengan dua macam cara. Berikut ini adalah caranya:
Direktori {{URL|//dumps.wikimedia.org/}} juga menyimpan ''dump'' SQL dan XML terbaru untuk proyek-proyek lain selain bahasa Indonesia. Setiap sub-direktori dinamai sesuai [[Daftar_kode_ISO_639-1|kode bahasa]] dan nama proyeknya. Sebagai contoh, ''dump'' untuk Wikipedia bahasa Inggris dapat diakses di {{URL|http://download.wikimedia.org/enwiki/}}. Berkas-berkas ''dump'' ini juga tersedia di [[iarchive:wikimediadownloads|Internet Archive]]. Berikut adalah beberapa bahasa dan proyek lain yang mungkin Anda inginkan:
 
* Wiktionary bahasa Indonesia: {{URL|dumps.wikimedia.org/idwiktionary/latest/}}
== Pengunduhan Wikimedia ==
* Wikisource bahasa Indonesia: {{URL|dumps.wikimedia.org/idwikisource/latest/}}
{{pintas|[[WP:DUMP]]<br>[[WP:DUMPS]]}}
Cara* yang pertama adalah dengan cara mengunduh XML WikipediaWikibooks bahasa Indonesia: yang sudah dikompres dalam bentuk .tar.gz melalui situs web http://{{URL|dumps.wikimedia.org/idwikiidwikibooks/latest/.}}
* Wikiquote bahasa Indonesia: {{URL|dumps.wikimedia.org/idwikiquote/latest/}}
* Wikipedia bahasa Jawa: {{URL|dumps.wikimedia.org/jvwiki/latest/}}
* Wikipedia bahasa Melayu: {{URL|dumps.wikimedia.org/mswiki/latest/}}
* Wikipedia bahasa Sunda: {{URL|dumps.wikimedia.org/suwiki/latest/}}
* Wikipedia bahasa Jawa Banyumasan: {{URL|dumps.wikimedia.org/map_bmswiki/latest/}}
* Wikipedia bahasa Aceh: {{URL|dumps.wikimedia.org/acewiki/latest/}}
* Wikipedia bahasa Banjar: {{URL|dumps.wikimedia.org/bjnwiki/latest/}}
* Wikipedia bahasa Bugis: {{URL|dumps.wikimedia.org/bugwiki/latest/}}
* Wikipedia bahasa Betawi: {{URL|dumps.wikimedia.org/bewwiki/latest/}}
 
=== ''Multistream'' ===
''Dump'' basis data Wikipedia bahasa Indonesia dilakukan secara rutin dan berkala oleh Wikimedia Foundation kira-kira setiap 10 hari. Untuk detail dari masing-masing berkas dapat dilihat di ''dump'' pada tanggal tertentu, misalnya ''dump'' tanggal 4 Januari 2012 dengan cara klik di http://dumps.wikimedia.org/idwiki/20120104/.
 
Jika memungkinkan, Anda sebaiknya menggunakan versi ''multistream'' dari berkas. Sebagai contoh, gunakan <code>pages-articles-multistream.xml.bz2</code> ketimbang <code>pages-articles.xml.bz2</code>. Kedua berkas memiliki konten XML yang sama, sehingga Anda mendapatkan data yang sama ketika meng-''unpack''-nya. Tetapi, berkas ''multistream'' memungkinkan Anda mendapatkan artikel dari arsip tanpa perlu meng-''unpack'' seluruh berkas. Pembaca (''reader'') yang Anda gunakan seharusnya mengurus hal ini, dan jika pembaca anda tidak mendukung ''multistream'', Anda masih dapat menggunakannnya karena keduanya mengandung XML yang sama. Satu-satunya kekurangan ''multistream'' adalah ukuran berkasnya yang jauh lebih besar. Anda mungkin berpikir untuk mengunduh berkas non-''multistream'' yang berukuran kecil, namun berkas ini tidak dapat digunakan jika Anda tidak meng-''unpack''-nya (dan hasil ''unpack'' umumnya berkisar 5-10 kali lebih besar daripada ukuran awal).
=== idwiki-pages-articles.xml ===
Berkas yang perlu Anda unduh biasanya cukup hanya idwiki-<tanggal>-pages-articles.xml.bz2 atau unduh versi terakhirnya di http://dumps.wikimedia.org/idwiki/latest/idwiki-latest-pages-articles.xml.bz2.
 
Perhatikan bahwa berkas ''dump multistream'' mengandung beberapa 'stream' <code>bz2</code> (''header'', ''body'', dan ''footer'') yang digabung menjadi satu berkas. Setiap 'stream' (atau sebenarnya juga berupa berkas) mengandung 100 halaman, kecuali mungkin untuk stream terakhir. Hal ini berbeda dengan berkas non-''multistream'' hanya yang mengandung satu 'stream' berisi data semua halaman.
Datanya berkapasitas sekitar 170.6 MB (versi 4 Januari 2012), sudah termasuk seluruh artikel ditambah seluruh templat dan seluruh deskripsi gambar yang digunakan, namun untuk berkas-berkas gambarnya tidak termasuk dalam pengunduhan data.
 
Untuk memroses ''multistream'', Anda dapat menggunakan berkas indeks <code>pages-articles-multistream-index.txt.bz2</code>. ''Field'' data pertama indeks ini adalah banyaknya bita yang perlu dilewati di arsip <code>pages-articles-multistream.xml.bz2</code>, ''field'' kedua adalah ID artikel, dan ketiga adalah judul artikel. Untuk memprosesnya secara manual, Anda dapat memotong berkas arsip menggunakan <code>dd</code> dan data ''offset'' bita yang didapatkan dari berkas indeks. Selanjutnya anda dapat men-''decompress''-nya atau menggunakan <code>bzip2recover</code>, dan mencari berkas yang dihasilkan berdasarkan ID artikel. Lihat informasi [https://docs.python.org/3/library/bz2.html#bz2.BZ2Decompressor ''bz2.BZ2Decompressor''] untuk cara men-''decompress'' menggunakan [[Python (bahasa pemrograman)|Python]].
=== idwiki-meta-current.xml ===
Kalau Anda ingin mengunduh seluruh artikel termasuk kategori-kategorinya, silakan mengunduh berkas bernama idwiki-<tanggal>-pages-meta-current.xml.bz2 atau download versi terakhirnya di http://dumps.wikimedia.org/idwiki/latest/idwiki-latest-pages-meta-current.xml.bz2.
 
== Lokasi berkas-berkas yang diunggah (gambar, audio, video, dll.) ==
Berkapasitas sekitar 206 MB (versi 4 Januari 2012), sudah termasuk seluruh artikel, ditambah seluruh templat, seluruh kategori, deskripsi gambar yang digunakan, namun untuk berkas-berkas gambarnya tidak termasuk dalam pengunduhan data.
Gambar dan jenis media-media lain tersedia di ''mirror'' dan disediakan langsung dari server Wikimedia. Pengunduhan secara massal (''bulk download'') hanya dapat dilakukan di ''mirror''; server Wikimedia tidak melayani proses ini. Lihat [[m:Mirroring Wikimedia project XML dumps#Media|daftar ''mirror'' saat ini]]. Anda sebaiknya melakukan [[Rsync|rsync]] dengan ''mirror'', lalu mengunduh gambar-gambar yang hilang di {{URL|upload.wikimedia.org}}. Ketika mengunduh dari ''upload.wikimedia.org'', sebaiknya Anda men-''throttle'' proses ke ''1 cache miss'' per detik (lihat ''header'' pada respons yang Anda terima untuk mengetahui apakah Anda mendapatkan ''hit'' atau ''miss''), dan tidak menggunakan lebih dari satu koneksi HTTP secara bersamaan. Pastikan Anda memiliki ''user-agent'' yang akurat dan berisi data surel, sehingga admin dapat mengontak Anda jika terjadi kendala. Anda akan mendapatkan ''checksums'' dari API Mediawiki dan memverifikasi mereka. Halaman [[mw:API:Etiquette|Etika API]] berisi beberapa pedoman melakukan proses ini, walaupun tidak semuanya berlaku (sebagai contoh, karena ''upload.wikimedia.org'' bukan Mediawiki, tidak ada parameter <code>maxlag</code>).
 
Tidak seperti sebagian besar teks artikel, gambar tidak diharuskan memiliki lisensi GFDL dan CC-BY-SA-3.0. Mereka dapat dilisensikan dibawah salah satu dari banyaknya [[Wikipedia:Tag_hak_cipta_berkas/Lisensi_bebas|lisensi bebas]], berada di [[Wikipedia:Domain_publik|domain publik]], memiliki [[Wikipedia:Tag_hak_cipta_berkas/Nonbebas|syarat penggunaan]], atau bahkan merupakan pelanggaran hak cipta (dan seharusnya dihapus). Secara khusus, penggunaan gambar yang bersyarat, diluar konteks Wikipedia atau sejenisnya mungkin bersifat ilegal. Pada sebagian besar lisensi, gambar yang ditampilkan/dimiliki perlu disertai dengan atribusi dan mungkin informasi hak cipta lainnya. Informasi-informasi ini tersedia di halaman deskripsi gambar, yang tersedia sebagai ''dump'' teks di {{URL|dumps.wikimedia.org/}}. Kesimpulannya, unduh gambar-gambar ini dengan risiko yang Anda tanggung sendiri (lihat {{URL|dumps.wikimedia.org/legal.html}})
=== Cara penggunaan ===
 
== Berurusan dengan berkas terkompresi ==
Berkas ''dump'' yang terkompresi (''compressed'') akan memerlukan ''banyak'' memori ketika didekompresi (''decompressed''). Berikut adalah beberapa program yang dapat digunakan untuk mendekompresi berkas bzip2 ([[bz2_(format_berkas)|.bz2]]), [[ZIP_(format_berkas)|.zip]], dan [[7-Zip|.7z]].
 
* [[Microsoft Windows|Windows]]:
** [[7-Zip]] (tersedia dibawah lisensi [[GNU Lesser General Public License|LGPL]])
** [[WinRAR]]
** [[WinZip]].
* [[Macintosh]] (Mac):
** [[OS X]] menyediakan program ''command-line'' <code>bzip2</code>.
* GNU/[[Linux]]
** Sebagian besar distribusi GNU/Linux menyediakan program ''command-line'' <code>bzip2</code>
* [[Berkeley Software Distribution]] (BSD)
** Beberapa sistem BSD menyediakan program ''command-line'' <code>bzip2</code> sebagai bagian dari sistem operasi. Beberapa sistem yang lain, seperti [[OpenBSD]], menyediakannya sebagai ''package'' yang perlu dipasang (''installed'') terlebih dahulu.
 
Sebagai catatan,
# Beberapa program <code>bzip2</code> usang mungkin tidak dapat memroses berkas dengan ukuran lebih dari 2 GB, sebaiknya Anda memastikan memiliki versi terbaru jika terjadi kesalahan.
# Beberapa arsip lama dikompresi menggunakan [[gzip]], yang kompatibel dengan PKZIP (format yang umum dipakai di Windows).
 
== Cara penggunaan ==
Cara paling mudah adalah dengan mengunduh perangkat lunak [[MediaWiki]] di [http://www.mediawiki.org/wiki/Download sini], menginstalnya di server Anda, lalu mengekstrak xml tersebut ke situs MediaWiki Anda dengan menggunakan [[:mw:Manual:MWDumper|MWDumper]]. Untuk langkah yang lebih sederhana, namun membutuhkan tempat yang lebih besar dan waktu yang lebih lama dalam proses pengunduhan, Anda dapat melihat [[#Kiwix]] di bawah.
:''Lihat pula [[:mw:Manual:Importing XML dumps]]'' di situs MediaWiki.org
 
=== ''Troubleshooting'' ===
# Gambarnya tidak muncul
#: Memang tidak ikut diunduh, karena jumlahnya yang besar
# Referensi tidak tertampil dengan benar
#: Silakan download ekstensi-ekstensi tambahan. Daftarnya dapat dilihat di [[Istimewa:Versi]]. Ekstensi yang paling diperlukan adalah [[:mw:Extension:ParserFunctions]] dan [[:mw:Extension:Cite]].
# Interwiki tidak jalan
#: Download dan tambahkan http://dumps.wikimedia.org/idwiki/latest/idwiki-latest-iwlinks.sql.gz ke database. Sekaligus download dan tambahkan http://dumps.wikimedia.org/idwiki/latest/idwiki-latest-pagelinks.sql.gz ke database.
 
=== Lain-lain ===
Selain Wikipedia bahasa Indonesia, proyek-proyek lain yang dapat Anda unduh adalah:
* http://dumps.wikimedia.org/idwiktionary/latest/ Wiktionary bahasa Indonesia]
* http://dumps.wikimedia.org/idwikisource/latest/ Wikisource bahasa Indonesia]
* http://dumps.wikimedia.org/idwikibooks/latest/ Wikibooks bahasa Indonesia]
* http://dumps.wikimedia.org/idwikiquote/latest/ Wikiquote bahasa Indonesia]
* http://dumps.wikimedia.org/jvwiki/latest/ Wikipedia bahasa Jawa]
* http://dumps.wikimedia.org/mswiki/latest/ Wikipedia bahasa Melayu]
* http://dumps.wikimedia.org/suwiki/latest/ Wikipedia bahasa Sunda]
* http://dumps.wikimedia.org/map_bmswiki/latest/ Wikipedia bahasa Jawa Banyumasan]
* http://dumps.wikimedia.org/acewiki/latest/ Wikipedia bahasa Aceh]
* http://dumps.wikimedia.org/bjnwiki/latest/ Wikipedia bahasa Banjar]
* http://dumps.wikimedia.org/bugwiki/latest/ Wikipedia bahasa Bugis]
* dan proyek-proyek lainnya (> 800 proyek).
 
== Kiwix ==
{{pintas|[[WP:KIWIX]]}}
Cara yang kedua adalah menggunakan [[Kiwix]]. Sejak April 2012, Wikipedia bahasa Indonesia versi Kiwix telah tersedia melalui situs web [http://www.kiwix.org/wiki/Main_Page/id www.kiwix.org].
 
Baris 85 ⟶ 93:
 
=== Pengunduhan Kiwix ===
[[Berkas:Kiwix showing Wikipedia article in Bahasa Indonesia.png|thumbjmpl|rightka|200px|Tampilan Wikipedia bahasa Indonesia dengan menggunakan Kiwix.]]
Anda hanya perlu mengunduh dua berkas:
* Software Kiwix: http://www.kiwix.org/
* File ZIM Wikipedia bahasa Indonesia:
** Edisi pertama dirilis pada 15 April 2012 ([[UTC]]) dengan kapasitas 2,18 GB yang terdiri dari 236.666 artikel dengan media berjumlah 145.875. Berkas ZIM dengan konten Wikipedia bahasa Indonesia yang terakhir disunting pada 13 April 2012 (UTC).
** Edisi kedua dirilis pada 28 Agustus 2013 dengan kapasitas 2,08 GB (UTC) yang terdiri dari 215.531 artikel dengan media berjumlah 161.284. Berkas ZIM dengan konten Wikipedia bahasa Indonesia yang terakhir disunting pada 26 Agustus 2012 (UTC).
** Edisi ketiga dirilis pada 16 Maret 2014 (UTC) dengan kapasitas 1,87 GB yang terdiri dari 338.398 artikel dengan media berjumlah 180.350. Berkas ZIM dengan konten Wikipedia bahasa Indonesia yang terakhir disunting pada 14 Maret 2014 (UTC).
*** Langsung: http://download.kiwix.org/zim/wikipedia_id_all.zim
*** BitTorrent: http://download.kiwix.org/zim/wikipedia_id_all.zim.torrent
 
Atau Anda dapat mengunduh keduanya secara sekaligus:
* [http://download.kiwix.org/portable/wikipedia_id_all.zip Pengunduhan Kiwix dan Wikipedia bahasa Indonesia secara langsung]
* [http://download.kiwix.org/portable/wikipedia_id_all.zip.torrent Pengunduhan Kiwix dan Wikipedia bahasa Indonesia melalui aplikasi Torrent]
 
=== Cara penggunaan Kiwix ===
Baris 135 ⟶ 139:
 
== Aard Dictionary ==
{{pintas|[[WP:AARD]]}}
Cara yang ketiga adalah menggunakan [[Aard Dictionary]]. Wikipedia bahasa Indonesia (9 Juni 2011) versi Aard Dictionary telah tersedia melalui situs web [http://aarddict.org/d/idwiki/ http://aarddict.org/].
 
Baris 148 ⟶ 152:
Setelah penginstalan Aard Dictionary selesai, jalankan program Aard Dictionary lalu klik "Dictionary" -> "Add Dictionaries", lalu buka berkas AAR yang sudah diunduh. Anda dapat langsung menggunakan Aard Dictionary.
 
=== Fitur-fitur Aard Dictionary ===
* Format berkas kecil
* Pencarian entri yang cepat
Baris 194 ⟶ 198:
 
[[Kategori:Wikipedia Indonesia]]
[[Kategori:Bantuan Wikipedia|Wikipedia]]