Bab ini membahas beberapa isu-isu yang terkait dengan data yang penting
untuk suksesnya data mining. Isu-isu tersebut meliputi
Tipe data; Data set berbeda dalam beberapa hal. Sebagai contoh, atribut-atribut
digunakan untuk menjelaskan objek-objek data dari tipe-tipe yang berbeda,
kualitatif atau kuantitatif. Data set juga dapat memiliki karakter khusus; misalnya
beberapa data set mengandung deret waktu atau objek dengan hubungan eksplisit
ke objek yang lain. Tipe data menentukan tool yang mana dan teknik apa yang
akan digunakan untuk menganalisis data.
Kualitas data; Data seringkali jauh dari sempurna. Walaupun kebanyakan teknik
data mining dapat mentoleransi beberapa tingkat ketidaksempurnaan dalam data, pemahaman dan peningkatan kualitas data secara khusus meningkatkan kualitas dari analisis yang dihasilkan. Isu kualitas data meliputi adanya noise dan outlier, data yang hilang, data yang tidak konsisten, atau data duplikat; dan data yang bisa,Langkah preprocessing untuk membuat data lebih sesuai untuk data mining; Seringkali data mentah perlu diproses agar data tersebut sesuai untuk analisis. Selain meningkatkan kualitas data.
data mining dapat mentoleransi beberapa tingkat ketidaksempurnaan dalam data, pemahaman dan peningkatan kualitas data secara khusus meningkatkan kualitas dari analisis yang dihasilkan. Isu kualitas data meliputi adanya noise dan outlier, data yang hilang, data yang tidak konsisten, atau data duplikat; dan data yang bisa,Langkah preprocessing untuk membuat data lebih sesuai untuk data mining; Seringkali data mentah perlu diproses agar data tersebut sesuai untuk analisis. Selain meningkatkan kualitas data.
cocok
dengan teknik data mining tertentu. Sebagai contoh, atribut kontinu seperti
panjang dapat ditranformasi ke dalam kategori diskret seperti pendek, sedang atau
panjang, agar teknik tertentu dapat diaplikasikan. Selain itu, banyaknya atribut
dalam data set sering kali dikurangi karena banyak teknik bekerja lebih efektif
ketika data memiliki sejumlah atribut yang relatif lebih sedikit.
Menganalisis data dalam bentuk relasinya; Satu pendekatan untuk analisis data
adalah menemukan hubungan antara objek-objek data dan kemudian melakukan
analisis sisanya menggunakan hubungan-hubungan ini daripada menggunakan
objek-objek data itu sendiri. Sebagai contoh, kita dapat menghitung kemiripan
atau jarak antar sepasang objek dan kemudian melakukan analisis – clustering,
klasifikasi, atau deteksi anomali– berdasarkan pada kemiripan dan jarak tersebut.
2.1 Tipe Data
Sebuah data set dapat dipandang sebagai sebuah koleksi dari objek- objek
data. Nama lain dari sebuah objek data adalah record, titik, vektor, pola, event,
case, sample, observasi atau entitas. Objek-objek data dijelaskan oleh sejumlah
atribut yang menangkap karakteristik dasar dari sebuah objek, seperti massa dari
sebuah objek fisik atau waktu pada saat sebuah kejadian terjadi. Nama-nama lain
untuk atribut adalah variabel, karekteristik, field, fitur atau dimensi.
Terdapat tiga karakteristik data set dan memiliki pengaruh penting pada
teknik data mining yang digunakan. Karakteristik tersebut adalah:
1. Dimensionalitas. Dimensionalitas dari data set adalah banyaknya atribut
yang dimiliki objek dalam data set. Data dengan jumlah dimensi yang kecil
cenderung berbeda secara kualitatif dibandingkan dengan data berdimensi
sedang atau tinggi. Untuk memudahkan analisis, pada data berdimensi tinggi
seringkali dilakukan reduksi dimensi yaitu pada tahap preprocessing.
2. Sparsity. Untuk beberapa data set, misal pada data set yang mengandug
atribut asimetrik, kebanyakan atribut memiliki nilai 0. Dalam kebanyakan
kasus, kurang dari 1% dari keseluruhan data yang memiliki nilai tak nol.
Dalam praktik, sparsity adalah keuntungan karena biasanya hanya nilai-nilai
tak nol yang perlu disimpan dan dimanipulasi. Hasil ini secara signifikan
menghemat biaya komputasi dan tempat penyimpanan.
3. Resolusi. Data pada tingkat resolusi yang berbeda seringkali diperoleh, dan
sering pula sifat-sifat dari data berbeda pada resolusi yang berbeda. Sebagai
contoh, permukaan bumi terlihat sangat tidak rata pada resolusi tertentu (dari
beberapa meter), tetapi terlihat halus jika terlihat dari puluhan kilo meter.
Pola data juga tergantung pada level resolusi. Jika resolusi terlalu halus, pola
tertentu dapat tidak tampak atau dapat terkubur dalam noise; jika resolusi
terlalu kasar, pola dapat hilang. Sebagai contoh, variasi dalam tekanan
atmosfer pada skala jam merefelksikan pergerakan badai dan sistem cuaca
lainnya. Pada skala bulanan, fenomena tersebut tidak akan terdeteksi.
Data record
Data set ini merupakan kumpulan record (objek data), masing-masing record mengandung sekumpulan field data (atribut)Untuk kebanyakan bentuk dasar dari data record, tidak ada hubungan yang eksplisit diantara record atau field data, dan setiap record (objek) memiliki himpunan atribut yang sama. Data record biasanya disimpan dalam flat file atau dalam basis data relasioanal. Basis data relasional lebih dari pada koleksi data, tetapi datamining seringkali tidak menggunakan informasi tambahan yang ada dalam basis data relasional.
Data set ini merupakan kumpulan record (objek data), masing-masing record mengandung sekumpulan field data (atribut)Untuk kebanyakan bentuk dasar dari data record, tidak ada hubungan yang eksplisit diantara record atau field data, dan setiap record (objek) memiliki himpunan atribut yang sama. Data record biasanya disimpan dalam flat file atau dalam basis data relasioanal. Basis data relasional lebih dari pada koleksi data, tetapi datamining seringkali tidak menggunakan informasi tambahan yang ada dalam basis data relasional.
Nilai yang Hilang
Seringkali ditemui sebuah objek yang kehilangan satu atau lebih nilai
atributnya. Dalam beberapa kasus, informasi tidak dikumpulkan; sebagai contoh
beberapa orang menolak memberikan data umur dan berat badannya. Dalam
kasus lain, beberapa atribut tidak digunakan untuk semua objek data; sebagai
contoh formulir yang memiliki bagian kondisional yang akan diisi jika seseorang
menjawab pertanyaan sebelumnya, tetapi untuk kemudahan semua field tersebut
disimpan. Terdapat beberapa strategi untuk menangani data yang hilang, yaitu
1. Mengeliminasi objek data atau atribut
Cara sederhana dan efektif adalah menghilangkan objek yang memiliki nilai
yang hilang. Walaupun beberapa objek data tertentu mengandung informasi,
tetapi jika banyak objek yang memiliki nilai yang hilang, maka analisis akan
sulit dilakukan. Penghilangan objek data atau atribut harus dilakukan dengan
hati-hati, karena mungkin saja atribut atau objek data yang dibuang
merupakan salah satu bagian penting dalam analisis.
2. Mengeliminasi nilai yang hilang
Kadang-kadang data yang hilang dapat diestimasi. Sebagai contoh, perhatikan
sebuah time series yang berubah dalam mode yang halus, tetapi memiliki
sedikit nilai yang hilang yang tersebar secara luas. Dalam kasus demikian,
nilai yang hilang dapat diestimasi (diinterpolasi) dengan menggunakan nilainilai yang ada. Contoh lain adalah pada data set yang memiliki banyak titik
data yang mirip. Dalam kasus ini, nilai atribut dari titik terdekat ke titik yang memiliki nilai yang hilang sering digunakan untuk mengestimasi nilai yang
hilang tersebut. Jika atribut adalah kontinu, maka digunakan rataan dari nilai
atribut dari data terdekat. Sedangkan jika data adalah kategori, maka diambil
nilai atribut yang paling banyak muncul.
3. Mengabaikan nilai yang hilang selama analisis
Banyak pendekatan data mining yang dapat dimodifikasi untuk mengabaikan
nilai yang hilang. Sebagai contoh, anggaplah objek-objek sedang di-clusterkan dan kemiripan antara pasangan objek data perlu diperhitungkan. Jika satu
atau kedua objek dari pasangan tersebut memiliki nilai yang hilang untuk
beberapa atribut, maka kemiripan dapat diperhitungkan dengan hanya
menggunakan atribut yang tidak mengandung nilai yang hilang.
selengkapnya dapat didownload di FILE DATA
0 komentar:
Posting Komentar