Pengertian Data Mining, Apa Itu Data Mining?

Pengertian Data Mining, Apa Itu Data Mining?
Secara sederhana data mining yaitu penambangan atau inovasi berita gres dengan mencari acuan atau aturan tertentu dari sejumlah data yang sungguh besar (Davies, 2004). Data mining juga disebut selaku serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak dikenali secara manual dari sebuah kumpulan data (Pramudiono, 2007). Data mining, sering juga disebut sebagai knowledge discovery in database (KDD). KDD ialah aktivitas yang mencakup pengumpulan, pemakaian data, historis untuk menemukan keteraturan, acuan atau korelasi dalam set data berukuran besar (Santoso, 2007). 
Data mining yaitu kegiatan memperoleh contoh yang menarik dari data dalam jumlah banyak, data mampu disimpan dalam database, data warehouse, atau penyimpanan info yang lain. Data mining berhubungan dengan bidang ilmu – ilmu lain, seperti database system, data warehousing, statistik, machine learning, information retrieval, dan komputasi tingkat tinggi. Selain itu, data mining disokong oleh ilmu lain mirip neural network, pengenalan pola, spatial data analysis, image database, signal processing (Han, 2006). Data mining didefinisikan selaku proses menemukan teladan-teladan dalam data. Proses ini otomatis atau seringnya semiotomatis. Pola yang ditemukan harus sarat arti dan acuan tersebut memberikan keuntungan, biasanya keuntungan secara ekonomi. Data yang diperlukan dalam jumlah banyak (Witten, 2005).
Karakteristik data mining selaku berikut
Data mining berhubungan dengan inovasi sesuatu yang tersembunyi dan teladan data tertentu yang tidak dikenali sebelumnya. 
Data mining biasa memakai data yang sungguh besar. Biasanya data yang besar digunakan untuk membuat hasil lebih dipercaya. 
Data mining berkhasiat untuk menciptakan keputusan yang kritis, utamanya dalam strategi (Davies, 2004).
Berdasarkan beberapa pengertian tersebut dapat disimpulkan bahwa data mining yaitu suatu teknik menggali gosip berharga yang terpendam atau tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang mempesona yang sebelumnya tidak diketahui. Kata mining sendiri memiliki arti perjuangan untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu data mining bantu-membantu memiliki akar yang panjang dari bidang ilmu seperti kecerdasan bikinan (artificial intelligent), machine learning, statistik dan database. Beberapa sistem yang sering disebut-sebut dalam literatur data mining antara lain clustering, lassification, association rules mining, neural network, genetic algorithm dan lain-lain (Pramudiono, 2007).
Pengenalan Pola, Data Mining, dan Machine Learning
Pengenalan pola ialah sebuah disiplin ilmu yang mempelajari cara-cara mengklasifikasikan obyek ke beberapa kelas atau klasifikasi dan mengenali kecenderungan data. Tergantung pada aplikasinya, obyek-obyek ini bisa berupa pasien, mahasiswa, pemohon kredit, image atau signal atau pengukuran lain yang perlu diklasifikasikan atau dicari fungsi regresinya (Santoso, 2007).Data mining, sering juga disebut knowledge discovery in database (KDD), yakni kegiatan yang meliputi pengumpulan, pemakaian data historis untuk memperoleh keteraturan, acuan atau relasi dalam set data berukuran besar. Keluaran dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di kala depan. Sehingga istilah pattern recognition jarang digunakan sebab tergolong bab dari data mining (Santoso, 2007).
Machine Learning yaitu suatu area dalam artificial intelligence atau kecerdasan buatan yang berafiliasi dengan pengembangan teknik-teknik yang bisa diprogramkan dan belajar dari data kurun lalu. Pengenalan contoh, data mining dan machine learning sering digunakan untuk menyebut sesuatu yang sama. Bidang ini bersentuhan dengan ilmu probabilitas dan statistik kadang juga meningkatkan secara optimal. Machine learning menjadi alat analisis dalam data mining. Bagaimana bidang-bidang ini berhubungan mampu dilihat dalam gambar (Santoso, 2007).
Tahap-Tahap Data mining
Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap yang diilustrasikan di Gambar  Tahap-tahap tersebut bersifat interaktif, pemakai terlibat langsung atau dengan perantaraan knowledge base
Tahap-tahap data mining ada 6 ialah :
1. Pembersihan data (data cleaning)
Pembersihan data merupakan proses menghilangkan noise dan data yang tidak konsisten atau data tidak berhubungan . Pada umumnya data yang diperoleh, baik dari database sebuah perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna mirip data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak berhubungan dengan hipotesa data mining yang dimiliki. Data-data yang tidak relevan itu juga lebih baik dibuang. Pembersihan data juga akan menghipnotis performasi dari teknik data mining alasannya adalah data yang ditangani akan berkurang jumlah dan kompleksitasnya.
2. Integrasi data (data integration)
Integrasi data merupakan penggabungan data dari aneka macam database ke dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak cuma berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dikerjakan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang unik mirip atribut nama, jenis produk, nomor konsumen dan yang lain. Integrasi data perlu dikerjakan secara cermat alasannya kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai pola jika integrasi data menurut jenis produk ternyata memadukan produk dari kategori yang berlawanan maka akan didapatkan hubungan antar produk yang bantu-membantu tidak ada. 
3. Seleksi Data (Data Selection)
Data yang ada pada database seringkali tidak seluruhnya dipakai, oleh karena itu cuma data yang sesuai untuk dianalisis yang hendak diambil dari database. Sebagai teladan, sebuah kasus yang meneliti aspek kecenderungan orang membeli dalam masalah market basket analysis, tidak butuhmengambil nama konsumen, cukup dengan id pelanggan saja.
4. Transformasi data (Data Transformation)
Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining. Beberapa metode data mining membutuhkan format data yang khusus sebelum mampu diaplikasikan. Sebagai contoh beberapa sistem tolok ukur seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut transformasi data. 
5. Proses mining, 
Merupakan suatu proses utama dikala metode dipraktekkan untuk menemukan wawasan berharga dan tersembunyi dari data. 
6. Evaluasi pola (pattern evaluation), 
Untuk mengidentifikasi contoh-teladan mempesona kedalam knowledge based yang ditemukan. Dalam tahap ini hasil dari teknik data mining berupa teladan-teladan yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti membuatnya umpan balik untuk memperbaiki proses data mining, menjajal sistem data mining lain yang lebih sesuai, atau menerima hasil ini selaku sebuah hasil yang di luar praduga yang mungkin bermanfaat.
7. Presentasi wawasan (knowledge presentation), 
Merupakan visualisasi dan penghidangan pengetahuan tentang metode yang digunakan untuk menemukan wawasan yang diperoleh pengguna. Tahap terakhir dari proses data mining ialah bagaimana memformulasikan keputusan atau aksi dari hasil analisis yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa diketahui siapa pun yaitu satu tahapan yang dibutuhkan dalam proses data mining. Dalam penyajian ini, visualisasi juga mampu membantu mengkomunikasikan hasil data mining (Han, 2006)
Metode Data mining
Dengan definisi data mining yang luas, ada banyak jenis metode analisis yang mampu digolongkan dalam data mining. 
Association rules
Association rules (aturan asosiasi) atau affinity analysis (analisis afinitas) berkenaan dengan studi tentang “apa bareng apa”. Sebagai pola mampu berupa berupa studi transaksi di supermarket, misalnya seseorang yang membeli susu bayi juga berbelanja sabun mandi. Pada perkara ini bermakna susu bayi bersama dengan sabun mandi. Karena mulanya berasal dari studi ihwal database transaksi pelanggan untuk memilih kebiasaan sebuah produk dibeli bareng produk apa, maka hukum perkumpulan juga sering dinamakan market basket analysis. Aturan perkumpulan ingin menawarkan info tersebut dalam bentuk kekerabatan “if-then” atau “jika-maka”. Aturan ini dijumlah dari data yang sifatnya probabilistik (Santoso, 2007). Analisis perkumpulan diketahui juga sebagai salah satu sistem data mining yang menjadi dasar dari berbagai sistem data mining lainnya. Khususnya salah satu tahap dari analisis asosiasi yang disebut analisis contoh frekuensi tinggi (frequent pattern mining) menarik perhatian banyak peneliti untuk menciptakan algoritma yang efisien. Penting tidaknya suatu aturan assosiatif mampu dimengerti dengan dua parameter, support (nilai penunjang) yakni prosentase variasi item tersebut. dalam database dan confidence (nilai kepastian) yaitu kuatnya relasi antar item dalam hukum assosiatif. Analisis asosiasi didefinisikan suatu proses untuk memperoleh semua hukum assosiatif yang menyanggupi syarat minimum untuk support (minimum support) dan syarat minimum untuk confidence (minimum confidence) (Pramudiono, 2007).
Ada beberapa algoritma yang sudah dikembangkan tentang aturan asosiasi, tetapi ada satu algoritma klasik yang sering dipakai yakni algoritma apriori. Ide dasar dari algoritma ini adalah dengan berbagi frequent itemset. Dengan menggunakan satu item dan secara rekursif berbagi frequent itemset dengan dua item, tiga item dan seterusnya sampai frequent itemset dengan semua ukuran. Untuk membuatkan frequent set dengan dua item, mampu memakai frequent set item. Alasannya yakni kalau set satu item tidak melampaui support minimum, maka sembarang ukuran itemset yang lebih besar tidak akan melebihi support minimum tersebut. Secara lazim, berbagi set dengan fc-item memakai frequent set dengan k – 1 item yang dikembangkan dalam langkah sebelumnya. Setiap langkah memerlukan sekali pemeriksaan ke seluruh isi database. 
Dalam perkumpulan terdapat ungkapan antecedent dan consequent, antecedent untuk mewakili bagian “bila” dan consequent untuk mewakili bab “maka”. Dalam analisis ini, antecedent dan consequent ialah sekelompok item yang tidak mempunyai relasi secara bareng (Santoso, 2007). Dari jumlah banyak aturan yang mungkin dikembangkan, perlu mempunyai aturan-aturan yang cukup kuat tingkat ketergantungan antar item dalam antecedent dan consequent. Untuk mengukur kekuatan aturan asosiasi ini, dipakai ukuran support dan confidence. Support yaitu rasio antara jumlah transaksi yang menampung antecedent dan consequent dengan jumlah transaksi. Confidence ialah rasio antara jumlah transaksi yang mencakup semua item dalam antecedent dan consequent dengan jumlah transaksi yang meliputi semua item dalam antecedent.
Langkah pertama algoritma apriori adalah, support dari setiap item dijumlah dengan men-scan database. Setelah support dari setiap item didapat, item yang memiliki support lebih besar dari minimum support diseleksi sebagai pola frekuensi tinggi dengan panjang 1 atau sering disingkat 1-itemset. Singkatan k-itemset bermakna satu set yang terdiri dari k item. Iterasi kedua menghasilkan 2-itemset yang tiap set-nya mempunyai dua item. Pertama dibuat calon 2-itemset dari variasi semua 1-itemset. Lalu untuk tiap 
calon 2-itemset ini dihitung support-nya dengan men-scan database. Support artinya jumlah transaksi dalam database yang mengandung kedua item dalam kandidat 2-itemset. Setelah support dari semua kandidat 2-itemset didapatkan, calon 2-itemset yang menyanggupi syarat minimum support dapat ditetapkan selaku 2-itemset yang juga ialah teladan frekuensi tinggi dengan panjang 2.(Pramudiono, 2007)
Untuk selanjutnya iterasi iterasi ke-k mampu dibagi lagi menjadi beberapa bagian :
1. Pembentukan kandidat itemset
Kandidat k-itemset dibuat dari kombinasi (k-1)-itemset yang didapat dari iterasi sebelumnya. Satu ciri dari algoritma apriori adalah adanya pemangkasan kandidat k-itemset yang subset-nya yang berisi k-1 item tidak tergolong dalam pola frekuensi tinggi dengan panjang k-1.
2. Penghitungan support dari tiap kandidat k-itemset
Support dari tiap kandidat k-itemset didapat dengan men-scan database untuk mengkalkulasikan jumlah transaksi yang menampung semua item di dalam kandidat k-itemset tersebut. Ini yaitu juga ciri dari algoritma apriori adalah diharapkan penghitungan dengan scan seluruh database sebanyak k-itemset terpanjang.
3. Tetapkan acuan frekuensi tinggi
Pola frekuensi tinggi yang menampung k item atau k-itemset ditetapkan dari calon k-itemset yang support-nya lebih besar dari minimum support. Kemudian dihitung confidence masing-masing kombinasi item. Iterasi berhenti ketika semua item sudah dihitung sampai tidak ada kombinasi item lagi. (Pramudiono, 2007)
Secara ringkas algoritma apriori sebagai berikut :
Create L1 = set of supported itemsets of cardinality one 
Set k to 2
while (Lk−1 _= ∅)  
Create Ck from Lk−1
Prune all the itemsets in Ck that are not
supported, to create Lk
Increase k by 1
The set of all supported itemsets is L1 ∪ L2 ∪ · · · ∪ Lk 
Selain algoritma apriori, terdapat juga algoritma lain mirip FP-Grwoth. 
Perbedaan algoritma apriori dengan FP-Growth pada banyaknya scan database. Algoritma apriori melaksanakan scan database setiap kali iterasi sedangkan algoritma FP-Growth hanya melakukan sekali di awal (Bramer, 2007).
Decision Tree
Dalam decision tree tidak menggunakan vector jarak untuk mengklasifikasikan obyek. Seringkali data pengamatan memiliki atribut-atribut yang bernilai nominal. Seperti yang diilustrasikan pada gambar 2.6, misalkan obyeknya yakni sekumpulan buah-buahan yang mampu dibedakan berdasarkan atribut bentuk, warna, ukuran dan rasa. Bentuk, warna, ukuran dan rasa yaitu besaran nominal, adalah bersifat kategoris dan tiap nilai tidak bisa dijumlahkan atau dikurangkan. Dalam atribut warna ada beberapa nilai yang mungkin yaitu hijau, kuning, merah. Dalam atribut ukuran ada nilai besar, sedang dan kecil. Dengan nilai-nilai atribut ini, kemudian dibentuk decision tree untuk memilih suatu obyek termasuk jenis buah apa kalau nilai tiap-tiap atribut diberikan (Santoso, 2007).
Ada berbagai macam algoritma decision tree diantaranya CART dan C4.5. Beberapa info utama dalam decision tree yang menjadi perhatian yaitu seberapa detail dalam mengembangkan decision tree, bagaimana mengatasi atribut yang bernilai continues, memilih ukuran yang sesuai untuk penentuan atribut, mengatasi data pelatihan yang memiliki data yang atributnya tidak mempunyai nilai, memperbaiki efisiensi perhitungan (Santoso, 2007).Decision tree sesuai digunakan untuk perkara-kasus yang keluarannya bernilai diskrit. Walaupun banyak variasi model decision tree dengan tingkat kemampuan dan syarat yang berbeda, pada umumnya beberapa ciri yang tepat untuk diterapkannya decision tree adalah sebagai berikut :
1. Data dinyatakan dengan pasangan atribut dan nilainya
2. Label/keluaran data biasanya bernilai diskrit
3. Data mempunyai missing value (nilai dari suatu atribut tidak dikenali)
Dengan cara ini akan mudah mengelompokkan obyek ke dalam beberapa kalangan. Untuk membuat decision tree perlu memperhatikan hal-hal berikut ini :
1. Atribut mana yang mau dipilih untuk pemisahan obyek
2. Urutan atribut mana yang mau dipilih apalagi dulu
3. Struktur tree
4. Kriteria pemberhentian
5. Pruning 
(Santoso, 2007)
Clustering
Clustering tergolong metode yang telah cukup diketahui dan banyak digunakan dalam data mining. Sampai sekarang para ilmuwan dalam bidang data miningmasih melaksanakan aneka macam usaha untuk melaksanakan perbaikan versi clustering alasannya metode yang dikembangkan sekarang masih bersifat heuristic. Usaha-perjuangan untuk mengkalkulasikan jumlah cluster yang maksimal dan pengklasteran yang paling baik masih terus dijalankan. Dengan demikian memakai tata cara yang sekarang, tidak mampu menjamin hasil pengklasteran telah ialah hasil yang optimal. Namun, hasil yang dicapai lazimnya telah cukup anggun dari segi praktis.
Tujuan utama dari tata cara clustering adalah pengelompokan sejumlah data/obyek ke alam cluster (group) sehingga dalam setiap cluster akan berisi data yang semirip mungkin seperti diilustrasikan pada gambar 2.7. Dalam clustering metode ini berusaha untuk menempatkan obyek yang seperti (jaraknya bersahabat) dalam satu klaster dan menciptakan jarak antar klaster sejauh mungkin. Ini mempunyai arti obyek dalam satu cluster sungguh mirip satu sama lain dan berlawanan dengan obyek dalam cluster-cluster lainnya. Dalam metode ini tidak diketahui sebelumnya berapa jumlah cluster dan bagaimana pengelompokannya (Santoso, 2007).
Software Aplikasi
Software aplikasi terdiri atas acara yang bangkit sendiri yang mampu mengatasi keperluan bisnis tertentu. Aplikasi memfasilitasi operasi bisnis atau pengambilan keputusan administrasi maupun teknik sebagai pelengkap dalam aplikasi pemrosesan data konvensional. Sofware aplikasi dipakai untuk mengendalikan fungsi bisnis secara real time (Pressman, 2005).
Desain Model Aplikasi
Desain model dari aplikasi berisikan physical model dan logical model. Physical versi dapat digambarkan dengan denah alir tata cara. Logical model dalam metode gosip lebih menerangkan terhadap pengguna bagaimana nantinya fungsi-fungsi di tata cara gosip secara logika akan melakukan pekerjaan . Logical model mampu digambarkan dengan DFD (Data Flow Diagram) dan kamus data (Data Dictionary). Adapun klarifikasi dari alat bantu dalam rancangan model ialah sebagai berikut :
1. Diagram Konteks (Context Diagram)
Diagram konteks ialah suatu diagram sederhana yang menggambarkan hubungan antara proses dan entitas luarnya. Adapun simbol-simbol dalam diagram konteks seperti diterangkan pada tabel 2.2.
DFD (Data Flow Diagram)
DFD ialah sebuah model logika yang menggambarkan asal data dan tujuan data yang keluar dari sistem, serta menggambarkan penyimpanan data dan proses yang mentranformasikan data. DFD memperlihatkan hubungan antara data pada metode dan proses pada sistem. Beberapa simbol yang digunakan dalam DFD dijelaskan pada tabel
Perancangan Perangkat Lunak
Proses perancangan metode membagi patokan dalam metode perangkat keras atau perangkat lunak. Kegiatan ini memilih arsitektur tata cara secara keseluruhan. Perancangan perangkat lunak melibatkan kenali dan deskripsi abstraksi metode perangkat lunak yang fundamental dan kekerabatan-keterkaitannya (Sommerville, 2003). Sebagaimana persyaratan, desain didokumentasikan dan menjadi bab dari konfigurasi software (Pressman, 1997). Tahap desain meliputi perancangan data, perancangan fungsional, dan perancangan antarmuka. 
1. Perancangan data
Perancangan data mentransformasikan model data yang dihasilkan oleh proses analisis menjadi struktur data yang dibutuhkan pada ketika pembuatan acara (coding). Selain itu juga akan dikerjakan desain kepada struktur database yang akan dipakai. 
2. Perancangan fungsional
Perancangan fungsional mendeskripsikan keperluan fungsi-fungsi utama perangkat lunak.
3. Perancangan antarmuka 
Perancangan antarmuka mendefinisikan bagaimana pengguna (user) dan perangkat lunak berkomunikasi dalam melaksanakan fungsionalitas perangkat lunak.
Implementasi dan Pengujian Unit
Pada tahap ini, perancangan perangkat lunak direalisasikan selaku serangkaian acara atau unit acara. Kemudian pengujian unit melibatkan verifikasi bahwa setiap unit program telah memenuhi spesifikasinya (Sommerville, 2003).Program semestinya dirilis setelah dikembangkan, diuji untuk memperbaiki kesalahan yang didapatkan pada pengujian untuk menjamin kualitasnya (Padmini, 2005). Terdapat dua sistem pengujian adalah : 
1) Metode white box ialah pengujian yang berfokus pada nalar internal software (source code acara).
2) Metode black box yakni mengarahkan pengujian untuk memperoleh kesalahan-mesalahan dan menentukan bahwa input yang dibatasi akan menawarkan hasil kasatmata yang tepat dengan hasil yang diharapkan. Pada tahap pengujian, penulis melakukan tata cara black box adalah menguji fungsionalitas dari perangkat lunak saja tanpa mesti mengenali struktur internal program (source code).