Pengertian Penggalian Data (Data Mining)
Penggalian data (bahasa Inggris: data mining) yaitu ekstraksi contoh yang menarik dari data dalam jumlah besar. Suatu teladan dibilang menawan bila teladan tersebut tidak sepele, implisit, tidak dikenali sebelumnya, dan berguna. Pola yang dihidangkan haruslah gampang dimengerti, berlaku untuk data yang hendak diprediksi dengan derajat kepastian tertentu, berkhasiat, dan baru. Penggalian data mempunyai beberapa nama alternatif, meskipun definisi eksaknya berlainan, seperti KDD (knowledge discovery in database), analisis pola, arkeologi data, pemanenan isu, dan intelegensia bisnis. Penggalian data diperlukan saat data yang tersedia terlalu banyak (misalnya data yang diperoleh dari tata cara basis data perusahaan, e-commerce, data saham, dan data bioinformatika), tapi tidak tahu contoh apa yang mampu didapatkan.
Proses PencarianPola
Penggalian data adalahsalahsatubagiandari proses pencarianpola. Berikutiniurutan proses pencarianpola:
- Pembersihan Data: yaitu menghapus data pengganggu (noise) dan mengisi data yang hilang.
- Integrasi Data: ialah menggabungkan banyak sekali sumber data.
- Pemilihan Data: yakni menentukan data yang berhubungan .
- Transformasi Data: yakni mentransformasi data ke dalam format untuk diproses dalam penggalian data.
- Penggalian Data: ialah menerapkan metode pintar untuk ekstraksi pola.
- Evaluasi teladan: yakni mengetahui pola-contoh yang menarik saja.
- Penyajian contoh: adalah memvisualisasi pola ke pengguna.
Tujuan dari text mining ialah untuk mendapatkan info yang berkhasiat dari sekumpulan dokumen. Makara, sumber data yang dipakai pada text mining ialah kumpulan teks yang mempunyai format yang tidak terencana atau minimal semi teratur. Adapun peran khusus dari text mining antara lain yakni pengkategorisasian teks (text categorization) dan pengelompokan teks text clustering).
Text Mining
- Text mining ialah penerapan rancangan dan teknik data mining untuk mencari pola dalam teks, yaitu proses penganalisisan teks guna menyarikan isu yang bermanfaat untuk tujuan tertentu.
- Berdasarkan ketidakteraturan struktur data teks, maka proses text mining memerlukan beberapa tahap permulaan yang pada intinya yakni menyiapkan semoga teks dapat diubah menjadi lebih terorganisir.
Tahapan Text Mining
Masalah Umum yang dikerjakan
- Klasifikasi Dokumen
- Information Retrieval
- Pengorganisasian dan Clustering Dokumen
- Information Extraction
Clustering Dokumen
Analisis Cluster
- Analisis cluster adalah pengorganisasian kumpulan teladan ke dalam cluster (kalangan-kalangan) berdasar atas kesamaannya.
- Pola-pola dalam sebuah cluster akan mempunyai kesamaan ciri/sifat ketimbang pola-pola dalam cluster yang lainnya.
- Clustering bermanfaat untuk melakukan analisis contoh-acuan yang ada, mengelompokkan, membuat keputusan dan machine learning, tergolong data mining, document retrieval, segmentasi gambaran, dan penjabaran acuan.
- Metodologi clustering lebih cocok digunakan untuk eksplorasi kekerabatan antar data untuk membuat sebuah evaluasi kepada strukturnya.
Information Retrieval
Konsep dasar dari IR ialah pengukuran kesamaan
· sebuah perbandingan antara dua dokumen, mengukur sebearapa mirip keduanya.
Setiap input query yang diberikan, dapat dianggap sebagai suatu dokumen yang mau dicocokan dengan dokumen-dokumen lain.
Pengukuran kemiripan serupa dengan metode pembagian terstruktur mengenai yang disebut sistem nearest-neighbour.
Information Extraction
- Information Extraction berfaedah untuk menggali struktur berita dari sekumpulan dokumen.
- Dalam menerapkan IE, perlu sekali dilaksanakan pembatasan domain masalah.
- IE sangat membutuhkan NLP untuk mengenali gramatikal dari setiap kalimat yang ada.
- Sebagai acuan:
- “Indonesia dan Singapore menandatangani MoU koordinasi dalam bidang isu dan komunikasi.”
- KerjaSama(Indonesia, Singapore, TIK)
- Dengan IE, kita dapat memperoleh:
- concepts (CLASS)
- concept inheritance (SUBCLASS-OF)
- concept instantiation (INSTANCE-OF)
- properties/relations (RELATION)
- domain and range restrictions (DOMAIN/RANGE)
- equivalence
Algoritma yang digunakan pada text mining, biasanya tidak cuma melakukan perkiraan hanya pada dokumen, namun pada juga feature. Empat macam feature yang sering dipakai:
- Character, merupakan komponan perorangan, mampu aksara, angka, abjad spesial dan spasi, merupakan block pembangun pada level paling tinggi pembentuk semantik feature, seperti kata, term dan concept. Pada lazimnya , representasi character-based ini jarang dipakai pada beberapa teknik pemrosesan teks.
- Words.
- Terms, merupakan single word dan frasa multiword yang terpilih secara pribadi dari corpus. Representasi term-based dari dokumen tersusun dari subset term dalam dokumen.
- Concept, merupakan feature yang di-generate dari suatu dokumen secara manual, rule-based, atau metodologi lain. Pada peran selesai ini, desain di-generate dari argument atau verb yang telah diberi label pada sebuah dokumen.
Proses text mining meliputi proses tokenizing, filtering, stemming, dan tagging.
Tokenizing
Tokenizing ialah proses penghilangan tanda baca pada kalimat yang ada dalam dokumen sehingga menciptakan kata-kata yang bangkit sendiri-sendiri.
Filtering
Tahap filtering adalah tahap pengambilan kata-kata yang penting dari hasil tokenizing. Tahap filtering ini mampu memakai algoritma stoplist atau wordlist. Stoplist adalah penyaringan (filtering) terhadap kata-kata yang tidak pantas untuk dijadikan selaku pembeda atau selaku kata kunci dalam penelusuran dokumen sehingga kata-kata tersebut dapat dihilangkan dari dokumen. Sedangkan wordlist yaitu daftar kata-kata yang mungkin digunakan selaku keyword dalam pencarian dokumen.
Stemming
Stemming yaitu proses mengganti kata menjadi kata dasarnya dengan menetralisir imbuhan-imbuhan pada kata dalam dokumen atau mengubah kata kerja menjadi kata benda. Stem (akar kata) yaitu bagian dari kata yang tersisa setelah dihilangkan imbuhannya (awalan dan akhiran).
Contoh: connect ialah stem dari connected, connecting, connection, dan connections.
Gambar. Bagan tata cara stemming
Porter stemmermerupakan algoritma penghilangan akhiran morphological dan infleksional yang umum dari bahasa Inggris. Step-step algoritma Porter
Stemmer:
1. Step 1a : remove plural suffixation
2. Step 1b : remove mulut inflection
3. Step 1b1 : continued for -ed and -ing rules
4. Step 1c : y and i
5. Step 3
6. Step 4 : delete last suffix 4
7. Step 5a : remove e
8. Step 5b : reduction
Gambar. Control flow algoritma Porter Stemmer
Tagging
Tahap tagging ialah tahap mencari bentuk awal / root dari tiap kata lampau atau kata hasil stemming. Contoh: was be, used use, stori story, dll.
Analyzing
Tahap analyzing ialah tahap penentuan seberapa jauh keterhubungan antar kata-kata dengan dokumen yang ada.
Automatic Clustering
Clustering ialah proses membuat pengelompokan sehingga semua anggota dari setiap partisi mempunyai persamaan menurut matrik tertentu. Sebuah cluster yakni sekumpulan objek yang digabung bersama sebab persamaan atau kedekatannya. Clustering atau klasterisasi ialah suatu teknik yang sungguh memiliki kegunaan karena akan mentranslasi ukuran persamaan yang intuitif menjadi ukuran yang kuantitatif.
CLHM (Centroid Linkage Hierarchical Method)
Centroid Linkage adalah proses pengklasteran yang didasarkan pada jarak antar centroidnya [6]. Metode ini baik untuk masalah clustering dengan normal data set distribution. Akan namun sistem ini tidak sesuai untuk data yang mengandung outlier. Algoritma Centroid Linkage Hierarchical Method ialah selaku berikut:
1. Diasumsikan setiap data dianggap sebagai cluster. Kalau n=jumlah data dan c=jumlah cluster, mempunyai arti ada c=n.
2. Menghitung jarak antar cluster dengan Euclidian distance.
3. Mencari 2 cluster yang mempunyai jarak centroid antar cluster yang paling sekurang-kurangnyadan digabungkan (merge) kedalam cluster baru (sehingga c=c-1).
4. Kembali ke langkah 3, dan diulangi sampai dicapai cluster yang diinginkan.
Analisa Cluster
Analisa cluster adalah sebuah teknik evaluasi multivariate (banyak variabel) untuk mencari dan mengorganisir gosip perihal variabel tersebut sehingga secara relatif mampu dikelompokkan dalam bentuk yang homogen dalam suatu cluster. Secara biasa , bisa dibilang sebagai proses mengevaluasi baik tidaknya sebuah proses pembentukan cluster. Analisa cluster bisa diperoleh dari kepadatan cluster yang dibentuk (cluster density). Kepadatan sebuah cluster mampu ditentukan dengan variance within cluster (Vw) dan variance between cluster (Vb). Varian tiap tahap pembentukan
cluster bisa dihitung dengan rumus:
Dimana:
Vc2 = varian pada cluster c
c = 1..k, dimana k = jumlah cluster
nc = jumlah data pada cluster c
yi = data ke-i pada suatu cluster
yi = rata-rata dari data pada sebuah cluster
Selanjutnya dari nilai varian diatas, kita mampu mengkalkulasikan nilai variance within cluster (Vw) dengan rumus:
Dimana, N = Jumlah semua data
ni = Jumlah data cluster i
Vi = Varian pada cluster i
Dan nilai variance between cluster (Vb) dengan rumus:
Dimana, y = rata-rata dari yi
Salah satu tata cara yang digunakan untuk memilih cluster yang ideal adalah batas-batas variance, yaitu dengan menjumlah kepadatan cluster berbentukvariance within cluster (Vw) dan variance between cluster (Vb). Cluster yang ideal mempunyai Vw minimum yang merepresentasikan internal homogenity dan maksimum Vb yang menyatakan external homogenity.
Hill Climbing
Pada Hill-climbing didefinisikan bahwa kemungkinan mencapai global optimum terletak pada tahap ke-i, bila menyanggupi persamaan berikut:
Vi+1 >α. Vi
Dimana, α adalah nilai tinggi.
Nilai tinggi digunakan untuk menentukan seberapa mungkin tata cara ini mencapai global optimum. Nilai α yang biasa dipakai yakni 2,3, dan 4. Persamaan diatas, diperoleh berdasar analisa pergerakan varian teladan Hill climbing yang ditunjukkan pada gambar berikut:
Gambar. Pola nilai beda Hill-climbing
Berikut tabel yang memperlihatkan polapolavalley tracing dan hill climbingyang mungkinmencapai global optimum. Pola yang mungkin ditandai dengansimbol √.
Tabel. Tabel kemungkinan contoh hill climbing mencapai global optimum
Selanjutnya, dengan pendekatan sistem hill climbing dikerjakan kenali perbedaan nilai tinggi (∂) pada tiap tahap, yang didefinisikan dengan:
∂ = Vi+1 . (Vi * α)
Nilai ∂ dipakai untuk menyingkir dari local optima, dimana persamaan ini diperoleh dari maksimum ∂ yang dipenuhi pada persamaan 6. Untuk membentuk cluster secara otomatis, ialah cluster yang meraih global optima, digunakan nilai ë selaku threshold, sehingga cluster secara otomatis terbentuk dikala menyanggupi:
max(∂) ≥
Untuk mengenali keakuratan dari suatu sistem pembentukan cluster pada hierarchical method, dengan memakai hill climbing digunakan persamaan.