Sabtu, 08 September 2018

mencari sebuah data pada dataminning

Bab ini membahas beberapa isu-isu yang terkait dengan data yang penting untuk suksesnya data mining. Isu-isu tersebut meliputi Tipe data; Data set berbeda dalam beberapa hal. Sebagai contoh, atribut-atribut digunakan untuk menjelaskan objek-objek data dari tipe-tipe yang berbeda, kualitatif atau kuantitatif. Data set juga dapat memiliki karakter khusus; misalnya beberapa data set mengandung deret waktu atau objek dengan hubungan eksplisit ke objek yang lain. Tipe data menentukan tool yang mana dan teknik apa yang akan digunakan untuk menganalisis data.

Kualitas data; Data seringkali jauh dari sempurna. Walaupun kebanyakan teknik
data mining dapat mentoleransi beberapa tingkat ketidaksempurnaan dalam data, pemahaman dan peningkatan kualitas data secara khusus meningkatkan kualitas dari analisis yang dihasilkan. Isu kualitas data meliputi adanya noise dan outlier, data yang hilang, data yang tidak konsisten, atau data duplikat; dan data yang bisa,
Langkah preprocessing untuk membuat data lebih sesuai untuk data mining; Seringkali data mentah perlu diproses agar data tersebut sesuai untuk analisis. Selain meningkatkan kualitas data.

cocok dengan teknik data mining tertentu. Sebagai contoh, atribut kontinu seperti panjang dapat ditranformasi ke dalam kategori diskret seperti pendek, sedang atau panjang, agar teknik tertentu dapat diaplikasikan. Selain itu, banyaknya atribut dalam data set sering kali dikurangi karena banyak teknik bekerja lebih efektif ketika data memiliki sejumlah atribut yang relatif lebih sedikit.

Menganalisis data dalam bentuk relasinya; Satu pendekatan untuk analisis data adalah menemukan hubungan antara objek-objek data dan kemudian melakukan analisis sisanya menggunakan hubungan-hubungan ini daripada menggunakan objek-objek data itu sendiri. Sebagai contoh, kita dapat menghitung kemiripan atau jarak antar sepasang objek dan kemudian melakukan analisis – clustering, klasifikasi, atau deteksi anomali– berdasarkan pada kemiripan dan jarak tersebut.

2.1 Tipe Data Sebuah data set dapat dipandang sebagai sebuah koleksi dari objek- objek data. Nama lain dari sebuah objek data adalah record, titik, vektor, pola, event, case, sample, observasi atau entitas. Objek-objek data dijelaskan oleh sejumlah atribut yang menangkap karakteristik dasar dari sebuah objek, seperti massa dari sebuah objek fisik atau waktu pada saat sebuah kejadian terjadi. Nama-nama lain untuk atribut adalah variabel, karekteristik, field, fitur atau dimensi.

Terdapat tiga karakteristik data set dan memiliki pengaruh penting pada teknik data mining yang digunakan. Karakteristik tersebut adalah:

1. Dimensionalitas. Dimensionalitas dari data set adalah banyaknya atribut yang dimiliki objek dalam data set. Data dengan jumlah dimensi yang kecil cenderung berbeda secara kualitatif dibandingkan dengan data berdimensi sedang atau tinggi. Untuk memudahkan analisis, pada data berdimensi tinggi seringkali dilakukan reduksi dimensi yaitu pada tahap preprocessing. 

2. Sparsity. Untuk beberapa data set, misal pada data set yang mengandug atribut asimetrik, kebanyakan atribut memiliki nilai 0. Dalam kebanyakan kasus, kurang dari 1% dari keseluruhan data yang memiliki nilai tak nol. Dalam praktik, sparsity adalah keuntungan karena biasanya hanya nilai-nilai tak nol yang perlu disimpan dan dimanipulasi. Hasil ini secara signifikan menghemat biaya komputasi dan tempat penyimpanan.

3. Resolusi. Data pada tingkat resolusi yang berbeda seringkali diperoleh, dan sering pula sifat-sifat dari data berbeda pada resolusi yang berbeda. Sebagai contoh, permukaan bumi terlihat sangat tidak rata pada resolusi tertentu (dari beberapa meter), tetapi terlihat halus jika terlihat dari puluhan kilo meter. Pola data juga tergantung pada level resolusi. Jika resolusi terlalu halus, pola tertentu dapat tidak tampak atau dapat terkubur dalam noise; jika resolusi terlalu kasar, pola dapat hilang. Sebagai contoh, variasi dalam tekanan atmosfer pada skala jam merefelksikan pergerakan badai dan sistem cuaca lainnya. Pada skala bulanan, fenomena tersebut tidak akan terdeteksi.

Data record
Data set ini merupakan kumpulan record (objek data), masing-masing record mengandung sekumpulan field data (atribut)Untuk kebanyakan bentuk dasar dari data record, tidak ada hubungan yang eksplisit diantara record atau field data, dan setiap record (objek) memiliki himpunan atribut yang sama. Data record biasanya disimpan dalam flat file atau dalam basis data relasioanal. Basis data relasional lebih dari pada koleksi data, tetapi datamining seringkali tidak menggunakan informasi tambahan yang ada dalam basis data relasional.

Nilai yang Hilang Seringkali ditemui sebuah objek yang kehilangan satu atau lebih nilai atributnya. Dalam beberapa kasus, informasi tidak dikumpulkan; sebagai contoh beberapa orang menolak memberikan data umur dan berat badannya. Dalam kasus lain, beberapa atribut tidak digunakan untuk semua objek data; sebagai contoh formulir yang memiliki bagian kondisional yang akan diisi jika seseorang menjawab pertanyaan sebelumnya, tetapi untuk kemudahan semua field tersebut disimpan. Terdapat beberapa strategi untuk menangani data yang hilang, yaitu 

1. Mengeliminasi objek data atau atribut Cara sederhana dan efektif adalah menghilangkan objek yang memiliki nilai yang hilang. Walaupun beberapa objek data tertentu mengandung informasi, tetapi jika banyak objek yang memiliki nilai yang hilang, maka analisis akan sulit dilakukan. Penghilangan objek data atau atribut harus dilakukan dengan hati-hati, karena mungkin saja atribut atau objek data yang dibuang merupakan salah satu bagian penting dalam analisis. 

2. Mengeliminasi nilai yang hilang Kadang-kadang data yang hilang dapat diestimasi. Sebagai contoh, perhatikan sebuah time series yang berubah dalam mode yang halus, tetapi memiliki sedikit nilai yang hilang yang tersebar secara luas. Dalam kasus demikian, nilai yang hilang dapat diestimasi (diinterpolasi) dengan menggunakan nilainilai yang ada. Contoh lain adalah pada data set yang memiliki banyak titik data yang mirip. Dalam kasus ini, nilai atribut dari titik terdekat ke titik yang memiliki nilai yang hilang sering digunakan untuk mengestimasi nilai yang hilang tersebut. Jika atribut adalah kontinu, maka digunakan rataan dari nilai atribut dari data terdekat. Sedangkan jika data adalah kategori, maka diambil nilai atribut yang paling banyak muncul. 

3. Mengabaikan nilai yang hilang selama analisis Banyak pendekatan data mining yang dapat dimodifikasi untuk mengabaikan nilai yang hilang. Sebagai contoh, anggaplah objek-objek sedang di-clusterkan dan kemiripan antara pasangan objek data perlu diperhitungkan. Jika satu atau kedua objek dari pasangan tersebut memiliki nilai yang hilang untuk beberapa atribut, maka kemiripan dapat diperhitungkan dengan hanya menggunakan atribut yang tidak mengandung nilai yang hilang.

selengkapnya dapat didownload di  FILE DATA 

0 komentar:

Posting Komentar