Pengertian Dan Fungsi Cluster Database

Pengertian Dan Fungsi Cluster Database
Clustering yakni proses mengelompokkan objek berdasarkan berita yang diperoleh dari data yang menjelaskan kekerabatan antar objek dengan prinsip untuk memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Tujuannya menemukan cluster yang bermutu dalam waktu yang pantas. Clustering dalam data mining berguna untuk memperoleh acuan distribusi di dalam sebuah data set yang berkhasiat untuk proses evaluasi data. Kesamaan objek lazimnya diperoleh dari kedekatan nilai-nilai atribut yang menjelaskan objek-objek data, sedangkan objek-objek data umumnya direpresentasikan sebagai sebuah titik dalam ruang multidimensi. 
Clustering ialah suatu alat untuk analisa data, yang memecahkan problem penggolongan.
Obyek nya adalah untuk perkara pendistribusian (orang-orang, objek, insiden dll.) ke dalam golongan, sedemikian sehingga derajat tingkat keterhubungan antar anggota cluster yang sama adalah berpengaruh dan lemah antar anggota dari cluster yang berlainan. Dengan Cara ini masing-masing cluster menguraikan, dalam kaitan dengan kumpulan/koleksi data, class dimana milik anggota-anggotanya. 
Cluster : Data item dikelompokkan berdasarkan opsi konsumen atau hubungan logis. Sebagai contoh, data dapat dimaknakan untuk mengidentifikasi segmen pasar atau ketertarikan pelanggan. 
Hasil dari analisis cluster mungkin berperan untuk definisi dari sebuah rencana penggolongan yang formal, seperti sebuah taksonomi untuk binatang yang terkait, serangga atau tanaman; atau menyarankan model statistik yang menguraikan populasi; atau menandai aturan untuk menugaskan masalah yang baru ke class untuk kenali dan tujuan yang diagnostik; atau menawarkan ukuran dari definisi, ukuran dan perubahan dalam rancangan sebelumnya yang tidak cuma luas. Bisnis apapun yang sedang anda lakukan, cepat atau lambat anda akan berhadapan dengan suatu problem penggolongan. 
Dengan memakai clustering, dapat diidentifikasi tempat yang padat, contoh-acuan distribusi secara keseluruhan dan keterkaitan yang menarik antara atribut-atribut data. Dalam data mining perjuangan difokuskan pada sistem-metode inovasi untuk cluster pada basisdata berukuran besar secara efektif dan efisien. Banyaknya pendekatan clustering menyulitkan dalam menentukan ukuran mutu yang universal. Namun, beberapa hal yang perlu diamati yaitu input parameter yang tidak menyulitkan user, cluster hasil yang mampu dianalisa, dan skalabilitas kepada penambahan ukuran dimensi dan record dataset. Secara garis besar ada beberapa klasifikasi algoritma clustering yang dikenal yakni:
  • Metode Partisi, dimana pemakai harus memilih jumlah k partisi yang diharapkan kemudian setiap data dites untuk dimasukkan pada salah satu partisi sehingga tidak ada data yang overlap dan satu data hanya memiliki satu cluster. Contohnya: algoritma K-Means. 
  • Metode Hierarki, yang menghasilkan cluster yang bersarang artinya sebuah data dapat mempunyai cluster lebih dari satu. Metode ini terbagi menjadi dua adalah buttom-up yang memadukan cluster kecil menjadi cluster lebih besar dan top-down yang memecah cluster besar menjadi cluster yang lebih kecil. Kelemahan tata cara ini yakni jikalau salah satu penggabungan/pemecahan dilaksanakan pada daerah yang salah, tidak akan ditemukan cluster yang maksimal. Contohnya: Agglomerative (FINDIT, PROCLUS), Divisive Hierarchical Clustering (CLIQUE, MAFIA, ENCLUE). 
Subspace Clustering
Subspace clustering ialah sebuah teknik clustering yang menjajal mendapatkan cluster pada dataset multidimensi dengan pemilihan dimensi yang paling berkaitan untuk setiap cluster, alasannya pada data multidimensi kemungkinan terdapat dimensi-dimensi yang tidak relevan yang dapat membingungkan algoritma clustering sehingga mampu mengaburkan cluster bahu-membahu yang semestinya mampu ditemukan.
Masalah yang lain, cluster mampu saja berada dalam subspace yang berlawanan, dimana setiap subspace dibuat dari kombinasi dimensi yang berbeda-beda. Akibatnya, semakin banyak dimensi yang digunakan, cluster akan susah didapatkan. Subspace clustering secara otomatis akan menemukan unit-unit yang padat pada tiap subspace. Pada Gambar diatas, mengilustrasikan bagaimana peningkatan jumlah dimensi menimbulkan terpecahnya titik pada dataset. 
Cara yang sudah dikenal untuk mengatasi kenaikan jumlah dimensi ialah menggunakan teknik reduksi dimensi atau feature selection. Dengan cara ini, dimensionalitas dataset dikurangi dengan menghilangkan beberapa dimensi, pendekatan ini berakibat pada hilangnya beberapa info dan sekaligus mengurangi efektifitas penemuan cluster yang mungkin melibatkan dimensi yang dihilangkan tersebut. Jika rancangan ini diterapkan dalam kasus di Gambar di bawah, berakibat hilangnya satu atau dua cluster yang seharusnya ada, alasannya masingmasing dimensi menjadi bab dari satu buah cluster. 
Misalnya ada suatu dataset 3-dimensi yang memiliki 2 cluster, satu cluster berada di bidang (x, y) dan (x, z). Untuk dataset seperti ini, sistem reduksi dimensi dan feature selection tidak mampu menemukan kembali semua struktur cluster, alasannya setiap dimensi merupakan salah satu subspace cluster yang terbentuk. Dengan memakai tata cara subspace clustering, dua cluster yang terbentuk pada Gambar 2-3 dibutuhkan dapat diperoleh alasannya adalah teknik clustering ini dapat memperoleh cluster dengan subspace yang berlainan dalam dataset. Berdasarkan strategi pencariannya algoritma susbsapce clustering dapat dikatagorikan ke dalam dua klasifikasi yakni sistem top down search iterative dan sistem bottom up search grid based. Algoritma MAFIA tergolong algoritma yang menggunakan taktik metode bottom up search grid based.
Lemma 1 (monotonicity): 
Jika kumpulan titik S ialah cluster dalam ruang dimensi–k maka S juga ialah bab sebuah cluster dalam ruang proyeksi dimensi-(k-1) Penjelasan:
Suatu cluster C yang berdimensi-k memasukkan titik yang jatuh di dalam adonan dense unit berdimensi-k yang masing-masing mempunyai selectivity minimal. Proyeksi setiap unit u dalam C harus mempunyai selectivity minimal biar bersifat padat. Karena semua unit dalam cluster terhubung, maka proyeksinya juga terhubung. Artinya, proyeksi titik dalam cluster C yang berdimensi-k juga berada dalam cluster yang serupa pada proyeksi dimensi (k-1). Algoritma diproses level demi level. Pertama-tama, menentukan kandidat dense unit berdimensi 1 dengan melaksanakan pass over data. Setelah menentukan dense unit berdimensi-k-1, calon dense unit berdimensi-k ditentukan dengan menggunakan mekanisme candidate generation. Algoritma berhenti bila tidak ada dense unit yang dibangkitkan. Prosedur candidat generation menyatakan Dk-1 sebagai kumpulan dense unit berdimensi (k-1). Prosedur ini mengembalikan superset kumpulan calon dense unit berdimensi-k yang hendak di bandingkan dengan density treshold apakah patut atau tidak dipakai sebagai penentu cluster.
Berbeda dengan association rule mining dan classification dimana kelas data telah ditentukan sebelumnya, clustering melaksanakan penge-lompokan data tanpa berdasarkan kelas data tertentu. Bahkan clustering mampu dipakai untuk menunjukkan label pada kelas data yang belum dimengerti itu. Karena itu clustering sering digolongkan selaku sistem unsupervised learning. Prinsip dari clustering yaitu mengoptimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. 
Clustering dapat dikerjakan pada data yan mempunyai beberapa atribut yang dipetakan selaku ruang multidimensi. Banyak algoritma clustering membutuhkan fungsi jarak untuk mengukur kemiripan antar data, dibutuhkan juga sistem untuk normalisasi bermacam atribut yang dimiliki data. Beberapa kategori algoritma clustering yang banyak dikenal adalah metode partisi dimana pemakai mesti menentukan jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi, metode lain yang telah usang dikenal ialah sistem hierarki yang terbagi dua lagi : bottom-up yang memadukan cluster kecil menjadi cluster lebih besar dan top-down yang memecah cluster besar menjadi cluster yang lebih kecil.
Kelemahan 3 metode ini yaitu kalau jikalau salah satu penggabungan/pemecahan dilaksanakan pada kawasan yang salah, tidak dapat didapatkan cluster yang maksimal. Pendekatan yang banyak diambil ialah memadukan metode hierarki dengan tata cara clustering yang lain seperti yang dilakukan oleh Chameleon. Akhir-akhir ini dikembangkan juga sistem berdasar kepadatan data, yaitu jumlah data yang ada di sekeliling suatu data yang sudah teridentifikasi dalam suatu cluster. Bila jumlah data dalam jangkauan tertentu lebih besar dari nilai ambang batas, data-data tsb dimasukkan dalam cluster. Kelebihan sistem ini yakni bentuk cluster yang lebih fleksibel. Algoritma yang populer ialah DBSCAN.
Cluster dipakai untuk mendapatkan high availability dan scalability.
Pada high available cluster, mampu digunakan failover database cluster, dimana hanya ada satu node yang aktif melayani user, sedangkan node yang lain standby. Storage yang digunakan mempunyai koneksi ke setiap node pada cluster, sehingga jika primary node mati, database engine, listener process, dan logical host ip address akan dijalankan pada secondary node tanpa perlu menunggu operating system boot, sehingga downtime dapat diminimalisasi. High availability memiliki standard uptime 99.999 persen, atau hanya boleh mati selama 5 menit dalam setahun. Beberapa pola software yang dapat digunakan untuk menciptakan HA cluster ialah Sun Cluster dan Veritas Cluster.
Pada scalable cluster, dipakai produk Oracle RAC, dimana setiap node aktif melayani user, sehingga diperoleh performa yang kian baik dengan menggunakan lebih banyak node. Sun cluster dapat dipakai hingga 16 node, sedangkan Veritas Storage Foundation for Oracle RAC mampu hingga 32 node. Jika ada node yang mati, tentu akan menurunkan penampilan, namun tidak terjadi down time. Pada scalable cluster, seluruh node mampu terhubung secara langsung ke shared storage, tetapi dapat juga tidak mempunyai koneksi fisik ke storage, melainkan melalui private cluster transport.
Teknologi Cluster
Kebutuhan akan komunikasi data dewasa ini sangat penting seiring dengan pertumbuhan dan kemajuan teknologi komunikasi data yang semakin mutakhir. Hal yang sungguh penting bagi Teknologi komunikasi data yaitu database selaku penyedia data. Aplikasi-aplikasi database dituntut untuk bisa melayani banyak jalan masuk data. Hal ini mampu dimaklumi alasannya database server sudah di rancang untuk mampu melayani bermacam-macam jenis terusan data. Saat ini aplikasi databse kian berkembang, baik dalam hal kegunaan, ukuran, maupun kompleksitas. Hal ini secara pribadi akan mempunyai pengaruh pada server database selaku pemasoklayanan terhadap terusan databse, konsekuensi dari semua itu ialah beban databse server akan kian bertambah berat dan menyebabkan kurang optimalnya kinerja dari server tersebut. Oleh alasannya itu, diperlukan perancangan yang tepat dan tangguh dalam membangun databse server. Solusi simpel dan tepat yang dapat diterapkan untuk mengatasi persoalan diatas antara lain dengan penerapan Teknologi Cluster. 
Banyak sekali faedah yang diperoleh dari teknologi cluster diantaranya meningkatkan ketersediaan dan performansi system. Pada server database yang besar dalam pelayanannya tidak memakai server databse tunggal, namun dilayani oleh sekelompok server database, beberapa buah server databse dihubungkan menjadi satu pada lingkungan yang sungguh kompleks. Arsitektur yang digunakan harus menjamin bahwa tata cara melakukan pekerjaan dengan baik, setiap server mengerjakan beban seharusnya, dan tidak ada bottleneck. Berbagai jenis server diikat menjadi satu untuk menjadikan suatu pelayanan tunggal (one stop shopping). Database tercluster tersebut mampu dianggap personal desktop atau database tunggal bagi penggunanya. 
Database pada kurun kini ini dituntut semoga dapat berjalan dengan cepat dan memiliki kehandalan yang tinggi, Dengan clustering ini database yang disimpan dapat terbagi ke beberapa mesin dan pada saat aplikasi berjalan, semua mesin yang menyimpan data tersebut dianggap sebagai satu kesatuan. Metode clustering seperti ini sangat bagus untuk load balancing dan penanganan system failure alasannya adalah kemampuan tiap mesin akan dipakai dan bila ada salah satu mesin yang mengalami failure maka sistem tidak akan langsung terganggu alasannya adalah mesin lain akan tetap berfungsi. Kemampuan clustering memungkinkan suatu database tetap hidup dalam waktu yang usang. MySQL berani menjanjikan angka 99.999 persen ketersediaan databasenya. Sederhananya, dalam satu tahun kira-kira hanya lima menit waktu database itu tidak hidup.
MySQL Cluster
MySQL Cluster memakai mesin penyimpanan cluster NDB gres yang mampu menjalankan beberapa MySQL Server di dalam sebuah cluster. Mesin penyimpanan cluster NDB tersedia di dalam BitKepper dari MySQL release 4.1.2 dan di dalam binary releases dari MySQL-Max 4.1.3. System operasi yang disokong ialah Linux, Mac OS X, dan Solaris, pihak MySQL sedang menciptakan/berbagi agar cluster NDBdapat berlangsung pada semua system operasi yang disokong oleh MySQL tergolong Windows.
Overview
MySQL Cluster yakni sebuah teknologi baru untuk memungkinkan clustering di dalam memory database dalam sebuah metode share-nothing. Arsitektur share-nothing membolehkan tata cara dapat bekerja dengan hardware/perangkat keras yang sungguh murah, dan tidak memerlukan perangkat keras dan lunak dengan spesifikasi khusus. Arsitektur tersebut juga tangguh karena masing-masing bagian mempunyai memory dan disk tersendiri. MySQL Cluster memadukan MySQL Server umumdengan sebuah mesin penyimpanan in-memory tercluster yang dinamakan NDB. NDB mempunyai arti bagian dari sebuah rangkaian yang dikhususkan sebagai mesin penyimpanan, sedangkan MySQL Cluster diartikan selaku kombinasi atau gabungan dari MySQL dan mesin penyimpanan yang baru tersebut.
Sebuah MySQL Cluster berisikan sekumpulan komputer, masing-masing melaksanakan sejumlah proses mencakup beberapa MySQL server, node-node penyimpanan untuk cluster NDB, server-server administrasi dan program-program pengakses data yang khusus. Semua program-acara tersebut bekerja bersama-sama untuk membentuk MySQL Cluster. Ketika data disimpan di dalam mesin penyimpan media NDB cluster, tabel-tabel disimpan didalam node-node penyimpanan pada NDB Cluster. Tabel-tabel mirip itu dapat diakses secara eksklusif dari semua MySQL server lainnya di dalam cluster tersebut. Dengan cara demikian, suatu aplikasi daftargaji menyimpan data di dalam suatu cluster, jika suatu aplikasi mengupdate/memperbaharui honor seorang karyawan, semua MySQL server lainnya yang meminta data ini mampu menyaksikan perubahannya dengan seketika.
Data yang disimpan di dalam node-node penyimpanan pada MySQL Cluster mampu di mirror (dicerminkan), cluster tersebut dapat mengatasi kegagalan dari node-node penyimpanan individual dengan tidak ada pengaruh lain dari sejumlah transaksi tidak boleh alasannya adalah kegagalan proses transaksi. Sejak aplikasi untuk proses-proses transaksi diharapkan mampu menanggulangi kegagalan transaksi, ini semua tidak semestinya menjadi sumber permasalahan. Dengan memperkenalkan MySQL Cluster pada dunia open source, MySQL menciptakan administrasi data cluster dengan ketersediaan yang tinggi, perfomance yang tinggi dan skalabilitas ketersediaan untuk semua orang yang memerlukannya.
Dasar rancangan-rancangan MySQL Cluster
NDB adalah suatu mesin penyimpanan memory yang memperlihatkan ketersediaan yang tinngi dan fitur-fitur persistensi data. Mesin penyimpanan NDB dapat dikelola dengan sebuah bidang failover dan pilihan-pilhan load-balancing, namun untuk memulai paling gampang dengan mesin penyimpanan pada level cluster. Mesin penyimpanan NDB pada MySQL Cluster berisi sebuah kumpulan lengkap dari data, bergantung cuma pada data lainnya di dalam cluster itu sendiri. Sekarang akan diuraikan bagaimana menertibkan sebuah MySQL Cluster yang terdiri dari suatu mesin penyimpanan NDB dan beberapa MySQL server. Sebagian dari MySQL Cluster dikonfigurasi tidak tergantung/bebas dari server-server MySQL yang lain. Di dalam MySQL Cluster, masing-masing bab dari cluster dianggap sebagai sebuah node.
Analisis Cluster (Lanjutan)
Clustering dan segmentasi bantu-membantu mempartisi database, alasannya itu setiap partisi atau group yaitu sama menurut persyaratan atau metrik tertentu. Jika pengukuran kesamaan tersedia, maka terdapat sejumlah teknik untuk membentuk cluster. Kebanyakan aplikasi2 data mining memakai clusteing berdasarkan similarity (kesamaan), contohnya segmentasi basis klien. Clustering berdasarkan meningkatkan secara optimal dari sekumpulan fungsi-fungsi dipakai pada analisis data, misalnya saat mensetting tarif asuransi klien dapat disegmentasi menurut sejumlah parameter. Contoh aplikasi :
  • Perangkat ‘stand-alone’ : explore data distribution
  • Langkah preprocessing untuk algoritma lain
  • Pengenalan pola, analisis data spasial, pengenalan gambaran, market research, WWW, …
  • clustering dokumen
  • clustering data log web untuk mendapatkan group dengan teladan jalan masuk yang serupa
  Definisi Manajemen Keuangan
Penggelompokkan data ke cluster
  • Data yang sama satu sama lain berada pada cluster yang serupa
  • Yang tidak sama berada pada cluster lain
  • ‘Unsupervised learning’: klas yang belum ditentukan
Clustering Yang Baik
Intraclass similarity (Kesamaan di dalam klas) yang tinggi dan interclass similarity (kesamaan antar klas) yang rendah bergantung pada pengukuran kesamaan 
Kemampuan untuk mendapatkan beberapa atau semua acuan yang tersembunyi 
Kebutuhan Clustering
Scalability : Kemampuan melaksanakan atribut2 dari berbagai tipe 
Penemuan clusters dengan bentuk yang tidak tentu 
Kebutuhan minimal untuk pengetahuan domain untuk menentukan parameter input 
Dapat menerima noise dan outlier 
Tidak mengindahkan susunan record dari input 
Dimensi yang tinggi 
Menyatu dengan batasan yang dispesifikasikan oleh user 
Interpretability and usability 
Tipe-tipe Data pada Clustering
Variabel berukuran interval 
Variabel biner 
Variabel nominal, ordinal dan rasio 
Variable dari banyak sekali tipe variable 
Kategori Pendekatan Clustering
Algoritma Partisi 
Mempartisi objek2 ke dalam k cluster 
Realokasi objek2 secara iteratif untuk memperbaiki clustering 
Algoritma Hirarkis
  • Agglomerative: setiap objek ialah cluster, adonan dari cluster-cluster membentuk cluster yang besar
  • Divisive: semua objek berada dalam sebuah cluster, pembagian cluster tersebut membentuk cluster2 yang kecil
Metode berbasis densitas
  • Berbasis koneksitas dan fungsi densitas
  • Noise disaring, kemudian temukan cluster dalam bentuk sembarang
  • Metode berbasis grid
  • Kuantisasi ruang objek ke dalam struktur grid
Berbasis Model
  • Gunakan versi untuk memperoleh kondisi data yang bagus.