a) Kemampuan Pendalaman Materi
1. Definisi Data Mining
Data mining merupakan salah satu cabang Ilmu Komputer yang akhir-akhir ini menjadi tren. Mengapa tidak, karena hampir semua bidang pekerjaan manusia di segala aspek khususnya yang membutuhkan keputusan menggunakan ilmu ini. Oleh karenanya, bidang ini menjadi sangat penting kedepannya. Kita ambil contoh keberhasilan salah satu timnas dalam menjuarai piala dunia 2014 tahun lalu merupakan salah satu andil dari bidang ini. Buku ini memberikan gambaran tentang data mining dari awal, proses sampai pengambilan suatu keputusan. Dijelaskan pula bidang-bidang yang bisa digunakan dengan ilmu ini serta bagaimana proses penggaliannya. Buku ini menuntun kita bagaimana memperlajari data mining serta bagaimana mengaplikasikannya dalam suatu kasus yang ada. Dijelaskan pula bagaimana proses perhitungan secara manual maupun menggunakan aplikasi yang mendukung ilmu ini.
Perkembangan data yang pesat membutuhkan pengolahan data untuk tidak hanya sekedar menghasilkan informasi namun juga memberikan pengetahuan baru. Proses penggalian/menambang data dengan teknik yang ada dalam data mining dapat menemukan pola tersembunyi pada data tersebut seperti penggunaan clasifikasi dan clustering.
Menurut Gartner Group data mining adalah suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematika (Larose, 2006). Selain definisi di atas beberapa definisi juga diberikan seperti, “data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.” (Pramudiono, 2006). “Data mining adalah analisis otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya.” (Pramudiono, 2006).
“Data mining merupakan analisis dari peninjauan kumpulan data untuk menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang berbeda dengan sebelumnya, yang dapat dipahami dan bermanfaat bagi pemilik data.” (Larose, 2006). “Data mining merupakan bidang dari beberapa keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi untuk penanganan permasalahan pengambilan informasi dari database yang besar.” (Larose, 2006). Kemajuan luar biasa yang terus berlanjut dalam bidang data mining didorong oleh beberapa faktor, antara lain : (Larose, 2006)
2. Siklus Hidup Data Mining
Adapun siklus hidup data mining adalah sebagai berikut:
Siklus hidup dalam pengembangan data mining dapat dibagi menjadi 6 tahapan yaitu:
1) Business understanding
Pada tahapan ini merupakan tahap untuk memahami tujuan dan analisa kebutuhan bisnis yang kemudian diubah ke dalam pengetahuan untuk menyusun dan menentukan rencana strategi.
2) Data understanding
Tahapan ini merupakan tahapan untuk proses pengumpulan data, mengidentifikasi data untuk menemukan pola yang menarik yang dapat digunakan untuk membuat hipotesis.
3) Data preparation
Tahapan ini tahap membangun data sheet yang akan dilanjutkan ke tahap permodelan dari data yang telah terkumpul titik tahapan ini meliputi pemuda yang tabel, atribut data termasuk proses pembersihan (cleansing).
4) Modeling
Pada tahapan ini pemilihan teknik data mining dipilih dan disesuaikan dengan parameter untuk mendapat hasil kan nilai yang optimal. Teknik sama dapat dipergunakan untuk menyelesaikan permasalahan yang berbeda.
5) Evaluation
Model yang sudah terbentuk diharapkan menghasilkan nilai yang berkualitas titik untuk mengetahui hasil tersebut maka dilakukan proses evaluasi. Proses evaluasi dilakukan untuk melihat keefektifan dan kualitas model yang digunakan.
3. Arsitektur Data Mining
Arsitektur data mining menggambarkan aliran proses data mining mulai dari sumber data yang digunakan. Pengelolaan hingga hubungan sistem data mining dengan user atau pengguna. Arsitektur data mainin digambarkan sebagai berikut:
Sumber data yang digunakan untuk data mining berasal dari berbagai sumber seperti database werehouse, website, dan lain sebagainya. Data dari berbagai sumber tersebut dibersihkan dengan membuang data yang tidak perlu, data yang dari berbagai sumber tersebut digabungkan dan diseleksi, data yang telah ditransformasikan diproses untuk memperoleh informasi atau pengetahuan. Informasi/pengetahuan tersebut ditampilkan agar dapat dilihat oleh user (Efori, 2020).
Hubungan yang dicari dalam data mining dapat berupa hubungan antara dua atau lebih dalam satu dimensi. Misalnya dalam dimensi produk, dapat di lihat keterkaitan pembelian suatu produk dengan produk yang lain. Selain itu, hubungan juga dapat dilihat antara dua atau lebih atribut dan dua atau lebih objek. (Ponniah, 2001).
Sementara itu, penemuan pola merupakan keluaran lain dari data mining. Misalkan sebuah perusahaan yang akan meningkatkan fasilitas kartu kredit dari pelanggan, maka perusahaan akan mencari pola dari pelanggan-pelanggan yang ada untuk mengetahui pelanggan yang potensial dan pelanggan yang tidak potensial.
Beberapa definisi awal dari data mining meyertakan fokus pada proses otomatisasi. Berry dan Linoff, (2004) dalam buku Data Mining Technique for Marketing, Sales, and Customer Support mendefinisikan data mining sebagai suatu proses eksplorasi dan analisis secara otomatis maupun semi otomatis terhadap data dalam jumlah besar dengan tujuan menemukan pola atau aturan yang berarti (Larose, 2006).
Tiga tahun kemudian, dalam buku Mastering Data Mining mereka memberikan definisi ulang terhadap pengertian data mining dan memberikan pernyataan bahwa “jika ada yang kami sesalkan adalah frasa secara otomatis maupun semi otomatis, karena kami merasa hal tersebut memberikan fokus berlebih pada teknik otomatis dan kurang pada eksplorasi dan analisis”. Hal tersebut memberikan pemahaman yang salah bahwa data mining merupakan produk yang dapat dibeli dibandingkan keilmuan yang harus dikuasai (Larose, 2006).
Pernyataan tersebut menegaskan bahwa dalam data mining otomatisasi tidak menggantikan campur tangan manusia. Manusia harus ikut aktif dalam setiap fase dalam proses data mining. Kehebatan kemampuan algoritma data mining yang terdapat dalam perangkat lunak analisis yang terdapat saat ini memungkinkan terjadinya kesalahan penggunaan yang berakibat fatal. Pengguna mungkin menerapkan analisis yang tidak tepat terhadap kumpulan data dengan menggunakan pendekatan yang berbeda. Oleh karenanya, dibutuhkan pemahaman tentang statistik dan struktur model matematika yang mendasari kerja perangkat lunak (Larose, 2006).
b) Penguatan Analisis Terhadap Penelitian
Proses data mining terdiri dari beberapa langkah yaitu:
1. Pemahaman bisnis
Langkah pertama dalam proses data mining adalah menetapkan tujuan proyek dan mengetahui cara bagaimana data mining dapat membantumu mencapai tujuan tersebut. Dalam tahapan ini rencana harus dikembangkan seperti menentukan jadwal, action, dan pembagian peran.
2. Pemahaman data
Berikutnya dilakukan pengumpulan data dari semua sumber data yang ada. Pada tahap ini tools visualisasi data mulai digunakan untuk mengeksplorasi sifat-sifat dalam data.
3. Persiapan data
Dalam tahapan ini data yang sudah dikumpulkan akan melewati data cleaning dan data transformasi. Pembersihan data atau data cleaning dilakukan pada data yang tidak konsisten atau yang tidak lengkap. Sementara transformasi data dilakukan dengan mengubah data untuk menjadikannya berguna dalam data mining.
Dalam transformasi data dapat dilakukan beberapa hal seperti smoothing (menghilangkan noise dari data), agregasi data, generalisasi, normalisasi, dan konstruksi atribut. Proses persiapan data biasanya dapat memakan waktu paling banyak dari keseluruhan proses. Itu sebabnya pada tahapan persiapan data biasanya DBMS atau database management system akan digunakan untuk meningkatkan kecepatan proses data mining.
4. Data modeling
Pada tahapan ini model matematika digunakan untuk menemukan pola dalam data. Teknik pemodelan akan disesuaikan dengan tujuan bisnis di awal. Selain itu akan dibuat skenario untuk menguji kualitas dan validitas baru kemudian menjalankannya pada dataset yang telah disiapkan. Hasilnya harus dinilai untuk memastikan apakah model tersebut dapat memenuhi tujuan data mining.
5. Evaluasi
Temuan data kemudian akan dievaluasi dan dibandingkan dengan tujuan bisnis untuk menentukan apakah dapat digunakan di seluruh organisasi.
6. Deployment
Pada tahapan akhir ini temuan data mining akan dibagikan ke berbagai platform operasi bisnis dalam perusahaan.
Adapun salah satu contoh penguatan analisis terhadap penelitian yakni sistem prediksi produktifitas pertanian padi menggunakan data mining. Penelitian ini melakukan analisis terhadap peningkatan produktivitas padi. Beberapa faktor memiliki
peran penting dalam peningkatan dan penurunan produktivitas. Faktor tersebut adalah cuaca, kesedian
pupuk, kondisi tanah. Faktor tersebut tidak dapat diprediksi, terutama perubahan cuaca. Beberapa petani
gagal memprediksi dan beradaptasi terhadap perubahan faktor yang mengakibatkan penurunan
produktivitas. Pembangunan Sistem Prediksi menggunakan pendekatan Data Mining. Prediksi akan
melakukan pengolahan data data pendukung dalam peningkatan produktifitas pertanian Pembahasan
berfokus pada tiga hal: faktor-faktor yang mempengaruhi produktivitas padi, klasifikasi untuk prediksi
dan metode klasifikasi. Kesimpulan dari penelitian ini adalah perbandingan tiga metode klasifikasi untuk
mendapatkan akurasi sistem prediksi. Sistem Prediksi telah diuji dengan menggunakan K Fold Cross
Validation. Tiga metode memiliki kesalahan prediksi di bawah 30% menggunakan 100 data training.
Produktifitas padi adalah sebuah ukuran dari
keberhasilan sebuah proses produksi pertanian
padi. Ukuran yang dilakukan adalah dalam satu
luas atau bidang sawah membutuhkan modal bibit,
pupuk, pengobatan dan tenaga kerja dapat
menghasilkan padi dalam ukuran berat (kg).
Selanjutnya nilai nilai tersebut diilakukan konversi
terhadap nilai rupiah.
Dalam peneltian ini dilakukan pengamatan di
wilayah Kabupaten Tasikmalaya. Data penelitian
dikumpulkan dalam 2 tahun terkahir. Pertanian
yang dimaksud adalah penanaman padi. Data
didapatkan dari Kantor Dinas Pertanian Kabupaten
Tasikmalaya dan Kantor Biro Pusat Statistik
Kabupaten Tasikmalaya.