Perkembangan yang cepat dalam teknologi pengumpulan dan
penyimpanan data telah memudahkan organisasi untuk mengumpulkan sejumlah
data berukuran besar sehingga menghasilkan gunung data. Ekstraksi informasi
yang berguna dari gunung data menjadi pekerjaan yang cukup menantang.
Seringkali alat dan teknik analisis data tradisional tidak dapat digunakan dalam
mengekstrak informasi dari data berukuran besar. Data mining adalah teknologi
yang merupakan campuran metode-metode analisis data dengan algoritmealgoritme untuk memproses data berukuran besar. Data mining telah banyak
diaplikasikan dalam berbagai bidang, diantanya dalam bidang bisnis dan
kedokteran.
Dalam bidang bisnis, teknik data mining digunakan untuk mendukung
cakupan yang luas dari aplikasi-aplikasi bisnis inteligen seperti customer
profiling, targeted marketing, workflow management, store layout dan fraud
detection. Teknik data mining dapat digunakan untuk menjawab pertanyaan
bisnis yang penting seperti ”Siapakan pelanggan yang akan paling banyak
mendatangkan keuntungan ?” dan ” Seperti apa perkiraan pendapatan perusahaan
tahun depan ?”.
Dalam bidang kedokteran, peneliti dalam bidang biomolekuler dapat
menggunakan teknik data mining untuk menganalisis sejumlah besar data
genomic yang sekarang ini telah banyak dikumpulkan untuk menjelaskan struktur
dan fungsi gen, memprediksi struktur protein, dan lain-lain.
1.1 Pengertian Data mining
Data mining adalah sebuah proses percarian secara otomatis informasi yang berguna dalam tempat penyimpanan data berukuran besar. Istilah lain yang sering digunakan diantaranya knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, dan business intelligence. Teknik data mining digunakan untuk memeriksa basis data berukuran besar sebagai cara untuk menemukan pola yang baru dan berguna. Tidak semua pekerjaan pencarian informasi dinyatakan sebagai data mining. Sebagai contoh, pencarian record individual menggunakan
database management system atau pencarian halaman we tertentu melalui kueri ke semua search engine adalah pekerjaan pencarian informasi yang erat kaitannya dengan information retrieval. Teknik-teknik data mining dapat digunakan untuk meningkatkan kemampuan sistem-sistem information retrieval.
Data mining adalah sebuah proses percarian secara otomatis informasi yang berguna dalam tempat penyimpanan data berukuran besar. Istilah lain yang sering digunakan diantaranya knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, dan business intelligence. Teknik data mining digunakan untuk memeriksa basis data berukuran besar sebagai cara untuk menemukan pola yang baru dan berguna. Tidak semua pekerjaan pencarian informasi dinyatakan sebagai data mining. Sebagai contoh, pencarian record individual menggunakan
database management system atau pencarian halaman we tertentu melalui kueri ke semua search engine adalah pekerjaan pencarian informasi yang erat kaitannya dengan information retrieval. Teknik-teknik data mining dapat digunakan untuk meningkatkan kemampuan sistem-sistem information retrieval.
Data input dapat disimpan dalam berbagai format seperti flat file,
spreadsheet, atau tabel-tabel relasional, dan dapat menempati tempat penyimpanan data terpusat atau terdistribusi pada banyak tempat. Tujuan dari preprocessing adalah mentransformasikan data input mentah ke dalam format yang sesuai untuk analisis selanjutnya. Langkah-langkah yang terlibat dalam preprocessing data meliputi mengabungkan data dari berbagai sumber, membersihkan (cleaning) data untuk membuang noise dan observasi duplikat, dan menyeleksi record dan fitur yang relevan untuk pekerjaan data mining. Karena terdapat banyak cara mengumpulkan dan menyimpan data, tahapan preprocessing data merupakan langkat yang banyak menghabiskan waktu dalam KDD.
spreadsheet, atau tabel-tabel relasional, dan dapat menempati tempat penyimpanan data terpusat atau terdistribusi pada banyak tempat. Tujuan dari preprocessing adalah mentransformasikan data input mentah ke dalam format yang sesuai untuk analisis selanjutnya. Langkah-langkah yang terlibat dalam preprocessing data meliputi mengabungkan data dari berbagai sumber, membersihkan (cleaning) data untuk membuang noise dan observasi duplikat, dan menyeleksi record dan fitur yang relevan untuk pekerjaan data mining. Karena terdapat banyak cara mengumpulkan dan menyimpan data, tahapan preprocessing data merupakan langkat yang banyak menghabiskan waktu dalam KDD.
Hasil dari data mining sering kali diintegrasikan dengan decision support
system (DSS). Sebagai contoh, dalam aplikasi bisnis informasi yang dihasilkan
oleh data mining dapat diintegrasikan dengan tool manajemen kampanye produk
sehingga promosi pemasaran yang efektif yang dilaksanakan dan dapat diuji.
Integrasi demikian memerlukan langkah postprocessing yang menjamin bahwa
hanya hasil yang valid dan berguna yang akan digabungkan dengan DSS. Salah
satu pekerjaan dan postprocessing adalah visualisasi yang memungkinkan analyst
untuk mengeksplor data dan hasil data mining dari berbagai sudur pandang.
Ukuran-ukuran statistik dan metode pengujian hipotesis dapat digunakan selama
postprocessing untuk membuang hasil data mining yang palsu.
1.2 Arsitektur Sistem Data mining
Data mining merupakan proses pencarian pengetahuan yang menarik dari data berukuran besar yang disimpan dalam basis data, data warehouse atau tempat penyimpanan informasi lainnya. Dengan demikian arsitektur sistem data mining memiliki komponen-komponen utama yaitu: - Basis data, data warehouse atau tempat penyimpanan informasi lainnya. - Basis data dan data warehouse server. Komponen ini bertanggung jawab dalam pengambilan relevant data, berdasarkan permintaan pengguna. - Basis pengetahuan. Komponen ini merupakan domain knowledge yang digunakan untuk memandu pencarian atau mengevaluasi pola-pola yang dihasilkan. Pengetahuan tersebut meliputi hirarki konsep yang digunakan untuk mengorganisasikan atribut atau nilai atribut ke dalam level abstraksi yang berbeda. Pengetahuan tersebut juga dapat berupa kepercayaan pengguna (user belief), yang dapat digunakan untuk menentukan kemenarikan pola yang diperoleh. Contoh lain dari domain knowledge adalah threshold dan metadata yang menjelaskan data dari berbagai sumber yang heterogen.
Data mining merupakan proses pencarian pengetahuan yang menarik dari data berukuran besar yang disimpan dalam basis data, data warehouse atau tempat penyimpanan informasi lainnya. Dengan demikian arsitektur sistem data mining memiliki komponen-komponen utama yaitu: - Basis data, data warehouse atau tempat penyimpanan informasi lainnya. - Basis data dan data warehouse server. Komponen ini bertanggung jawab dalam pengambilan relevant data, berdasarkan permintaan pengguna. - Basis pengetahuan. Komponen ini merupakan domain knowledge yang digunakan untuk memandu pencarian atau mengevaluasi pola-pola yang dihasilkan. Pengetahuan tersebut meliputi hirarki konsep yang digunakan untuk mengorganisasikan atribut atau nilai atribut ke dalam level abstraksi yang berbeda. Pengetahuan tersebut juga dapat berupa kepercayaan pengguna (user belief), yang dapat digunakan untuk menentukan kemenarikan pola yang diperoleh. Contoh lain dari domain knowledge adalah threshold dan metadata yang menjelaskan data dari berbagai sumber yang heterogen.
1.3 Tugas-tugas dalam Data mining
Tugas-tugas dalam data mining secara umum dibagi ke dalam dua kategori
utama:
- Prediktif. Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari
atribut tertentu berdasarkan pada nilai dari atribut-atribut lain. Atribut yang
diprediksi umumnya dikenal sebagai target atau variabel tak bebas, sedangkan
atribut-atribut yang digunakan untuk membuat prediksi dikenal sebagai
explanatory atau variabel bebas. - Deskriptif. Tujuan dari tugas deskriptif adalah untuk menurunkan pola-pola (korelasi, trend, cluster, trayektori, dan anomali) yang meringkas hubungan yang pokok dalam data. Tugas data mining deskriptif sering merupakan penyelidikan dan seringkali memerlukan teknik postprocessing untuk validasi dan penjelasan hasil.
explanatory atau variabel bebas. - Deskriptif. Tujuan dari tugas deskriptif adalah untuk menurunkan pola-pola (korelasi, trend, cluster, trayektori, dan anomali) yang meringkas hubungan yang pokok dalam data. Tugas data mining deskriptif sering merupakan penyelidikan dan seringkali memerlukan teknik postprocessing untuk validasi dan penjelasan hasil.
untuk lebih jelasnya download file pdf klik disini datamining pertemuan 1
sekian dari saya semoga bermanfaat wasalamualikum warahmatullohi wabarakatuh
0 komentar:
Posting Komentar