Saturday, May 26, 2007

Data Mining

Ada yang sudah nonton film jepang yang berjudul Death Note 2: Last Name? Kalau sudah, mungkin bisa mengingat-ingat salah satu scene di mana Ligth menjelaskan tentang bagaimana cara mengetahui identitas 3rd Kira berdasarkan pembunuhan-pembunuhan yang dilakukan oleh Kira. Saya ga akan bercerita lebih jauh tentang film ini, namun saya ingin mengacu kepada scene tersebut. Di scene tersebut, ditunjukkan bagaimana identitas 3rd kira berdasarkan modus operandinya. Cara mendapatkan modus operandinya dilakukan dengan melakukan analisis terhadap kumpulan data pembunuhan. Data pembunuhan (yang mungkin juga dilakukan oleh orang lain) dikelompokkan berdasarkan waktu dan metode pembunuhan. Persoalannya adalah polisi tidak tahu bahwa pembunuhan itu dilakukan oleh siapa, apakah sudah pasti itu dilakukan oleh Kira atau mungkin juga dilakukan oleh orang lain yang membunuh dengan meniru metode pembunuhan Kira. Persoalan pengelompokan data ini dalam bidang informatik adalah salah satu contoh aplikasi Data Clustering di bidang riset/kajian Data Mining.

Data mining adalah salah satu bidang yang dipelajari ketika saya mengambil kuliah Pembelajaran Mesin (Machine Learning) yang saya ambil ketika kuliah bachelor dulu. Di RWTH Aachen ini, Data Mining dipelajari secara khusus dalam kuliah yang diberi nama Data Mining Algorithm. Data Mining menurut saya adalah teknik untuk mengekstrak pengetahuan ataupun pola yang menarik dari kumpulan besar data (biasanya tersimpan di dalam database). Pengetahuan ini bersifat tersirat karena pengetahuan itu tersembunyi di dalam data dalam bentuk suatu pola. Kalau kita pengen tahu data penjualan tahun 2007, dan ternyata itu udah ada di database, yaa berarti (sesuai namanya) data penjualan tahun 2007 bukanlah pengetahuan. Selain itu pengetahuan juga non-trivial karena ya tentu saja, buat apa kita mendapatkan pengetahuan yang telah kita ketahui (trivial/common knowledge). Contoh common knowledge adalah semua yang melahirkan adalah wanita. Kan tidak menarik tuh! Tapi kalau kita bisa mendapatkan bahwa, misalnya, wanita yang melahirkan pada usia di atas 35 tahun mempunyai kecenderungan untuk meminta mobil pada saat ngidam, sekali lagi ini cuma misalnya loh, nah ini baru menarik.

Ah, apa sih pentingnya data mining bagi perusahaan? Ok, mari kita bayangkan kasus di bidang penggunaan kartu kredit. Apakah anda punya kartu kredit? Ya, kalau orang tua saya punya, jadi saya punya contoh kasus. Suatu hari ayah ditelpon oleh bank yang menginformasikan dan mengkonfirmasi penggunaan kartu kredit yang tidak biasa, yaitu kartu kredit ayah digunakan di malaysia untuk membeli sejumlah besar barang. Cerita cukup di sana saja, persoalannya sekarang adalah dari mana bank tahu bahwa sebuah transaksi tergolong sebuah transaksi yang aneh. Hal ini dapat dideteksi secara otomatis dengan data mining. Data mining dapat mencari dengan pengetahuannya bahwa transaksi kartu kredit ayah saya tergolong aneh. Contoh kasus lain adalah program penawaran jasa/barang kepada customer. Kalau kita tahu bahwa sekelompok pelanggan biasa menelpon pada jam 17.00-18.00 (misalnya karena macet, maka iseng ngegosip dengan teman-temannya), maka perusahaan dapat menarik pelanggan dari kelompok ini dengan menawarkan tarif yang bersaing dan menarik pada jam-jam tersebut. So, data mining dapat membantu meningkatkan kemampuan layanan sebuah perusahaan, baik di bidang keamanan ataupun juga kualitas layanan.

Data mining sering juga disebut-sebut sebagai Knowledge Discovery in Database (KDD) padahal ini adalah dua hal yang agak berbeda. Data mining adalah salah satu langkah yang perlu diambil dalam melaksanakan KDD. KDD adalah proses otomatis untuk mencari pola ataupun pengetahuan yang terkandung di dalam database. Langkah-langkah KDD meliputi: data selection, data cleaning and preprocessing, data reduction and transformation, data mining, pattern evaluation dan terakhir knowledge presentasion.

Data Mining sendiri mempunyai 3 bidang kajian penting, yaitu Clustering, Classification dan Association. Di samping 3 itu, ada kajian-kajian lain yang tidak kalah pentingnya untuk menunjang mereka, di antaranya deteksi outlier, deteksi noise dan deteksi pola sekuens (sequential pattern). Tiga hal ini akan dijelaskan dalam blog lainnya.

6 comments:

Anonymous said...

Wahh... saya mah tertariknya ama pelemnya Bos :D Belon nonton euy. Bagi dunks :p hehehehe.... (shhttt... uploadin ya :D)

Unknown said...

Hahahaha cacian deh elo ^^. Kalo mau, banyak kok alternativ dapetnya. Tergantung kepada koneksi internet yang elo punya ^^

Anonymous said...

Hmmm... rapidshare?? ada?? maksudku accountnya :p hihihihi.... kalo ga punya susah euy... selalu quota full pas nyoba download. Terpaksa bergantung ama bittorrent skrg. Cuma kasian aja si kompi jalan 24/7 :( hiks... ga bakalan berumur panjang doi :p

Unknown said...

rapid? punya dong...gw cuma khawatir aja ntar elo menyalahgunakannya ^^

Anonymous said...

Wakksss.... ya iya lah... hahahhaha.... eh maksudku. Enggak kok.. :D (tring tring.... tampang memelas :p) hehehehhehe

Unknown said...

Tengkiu atas masukkannya.,,,
Saya sedang skripsi tentang data mining, Klo boleh mohon petunjuk lebih lanjut tentang data mining,,