7 Mart 2013 Perşembe

WEKA ile Veri Madenciliği

Veri madenciliği,enformasyon alanında yapay zeka tekniğiyle beraber kullanılan akıllı öğrenme sistemlerinde kullanılan bir bilgi keşif tekniğidir.
Mesela bir deniz kabuğunun yaşını onun muhtelif özelliklerinden istatistiksel çıkarımlar yaparak kesin olmamakla beraber kuvvetli tahminler yapabiliriz.İşte bu istatistiksel çıkarımların bütünü veri madenciliğine girmektedir.
Weka bir veri madenciliği uygulaması olup açık kaynak kodlu geliştiricilerin kullanımına açık bir uygulamadır.

Weka indirmek için tıklayınız

Öncelikle WEKA kullanmak için wekanın desteklediği dosya formatları CSV,ARFF dir.ARFF,CSV ye göre daha erişilebilir bir dosya uzantısı olup CSV nin aksine dosya üzerinde yapacağınız değişimleri kaydedebilirsiniz.CSV de bu özelliği bulamayabilirsiniz.

Yükleme işlemi bittikten sonra uygulamamız açılır ve Explorer sekmesine gelinir

Daha sonra Open File butonuna tıklayarak .arff uzantılı dosyamız seçilir.


Preprocess sekmesi, bize dosya hakkında bilgiler vermektedir.Bu dosyadaki sınıfları(class),özellikleri(attribute) bilgileri ve bu bilgiler üzerinde yapılabilecek işlemler burada gerçekleşmektedir.Biraz detaya inecek olursak;
Filter kısmı,veriler üzerinde çeşitli hesaplamalar,uygulamalar(kayıp verilerin doldurulması,veriyi daha küçük parçalara ayırma(cross validation) ) gibi işlemler yapılabilmektedir.
Örneğin uğraştığımız datasette eğer kayıp veriler(missing value) mevcut ise
Choose -> filters ->unsupervised-> attributes->ReplaceMissingValue 
yaparak üzerinde bulundurduğu algoritmalarla Weka kayıp verilere değerler atayacaktır.


Classify(sınıflama)

Sınıflandırma veri madenciliğinde belirli özelliklere sahip olan örneklerin hangi sınıfa ait olduğunu göstermek için kullanılır.Günlük hayatta özellikle e-ticaret sitelerinde bolca kullanılmaktadır.Örnek verirsek "bunu satın alan kullanıcılar aşağıdaki şu ürünleri de incelemiştir,satın almıştır" veya bilgisayar oyunlarında özellikle iki oyunucunun özelliklerini karşılaştırarak hangi oyuncunun daha kuvvetli olduğuna karar veren mesela PES'te bir maçı simulate ederken iki takımın özelliklerini karşılaştırıp,çeşitli dış şartları(home&away,maçın önemi(lig veya final maçı gibi) ) da dahil ederek hangi takımın galip geleceği bu sınıflama tekniğiyle yapılmaktadır.

Wekada Classify sekmesine geldiğimizde karşımıza çıkan pencereyi inceleyelim.
Choose: sekmesi hangi sınıflama algoritmasını kullanacağız onu belirliyoruz.Örnekte J48(decision tree) algoritması gösterilmiştir.
Test Options: kısmına geldiğimizde burada verimizi nasıl parçalayacağız kaçını test kaçını training olarak kullanacağız onu belirliyoruz.Tek tek baktığımızda
Use Training set : Burada üzerinde Preprocess sekmesinde yüklediğimiz veri setinin tamamı kullanarak sınıflandırma yapılır
Supplied test set: Dışarıdan elle oluşturulmuş veri setini test olarak mevcut veri setimizi training olmak şartıyla kullanabiliriz
Cross Validation: K - Cross Validation tekniğiyle veri seçme
Percentage Split:Mevcut verimizin yüzde kaçını training olarak kullanacağımıza karar verir.

More Options un hemen altındaki sekmede hangi özelliğe göre sınıflama yapacağımız o seçilir.Buraya tıkladığımız vakit veri setimizdeki özellik değerlerini gösterir.

Start butonuna basılarak işlem başlatılır.

Sonuç kısmına baktığımızda burada bizi ilgilendirecek en önemli kısım Confusion Matrix tir.Confusion Matrix verilerimizin doğru bir şekilde sınıflandırılıp sınıflandırılamadığını bize söyler.Örneğe bakacak olursak yanlış bir sınıflandırma olmamıştır.9 kişi gerçekte republican sınıfında olup,sınıflama algoritması sonucunda da republican sınıfında olduğu tespit edilmiştir.Aynısı democrat sınıfındaki 6 örnek içinde geçerlidir.

Hiç yorum yok:

Yorum Gönder