Veri Madenciliği
Veri madenciliği hakkında…
Veri yığınları çıplak gözle bakıldığında bir anlam ifade etmezler. Bu veriler belli bir amaç doğrultusunda işlendiği zaman bir anlam ifade etmeye başlar (Kalikov, 2006).
Teknolojinin beraberinde gelen veri birikimi artık kontrol edilemeyecek büyüklüktedir. Ve her geçen gün çığ etkisiyle büyümektedir. Hastalıktan dolayı gittiğiniz hastanede yapılan kayıtlar, gün içerisinde birçok kez kullandığımız kredi kartlarımızın verileri, işletmelerde tutulan kayıtlar, akıllı saatlerimizde tutulan adım sayılarımız, kalp ritimlerimiz gibi bilgisayarlarımızda ve cep telefonlarımızda, tabletlerimizde sakladığımız binlerce veri vardır.
Veri madenciliği için kısaca, büyük ölçekli veriler arasından bilgiye ulaşma ve bu verilerden specific bilgiler elde etmek diyebiliriz.
Başka bir ifade ile büyük veri yığınları içerisinden gelecekle ilgili tahminde bulunabilmemizi sağlayacak bağıntıların bilgisayar programı kullanarak aranması ve ortaya çıkarılmasıdır.Bu da; kümeleme, sınıflama,veri özetleme,sapma tespitleri gibi belirli teknik yaklaşımları içerir.
Uygulama Alanları
Günümüzde aklınıza gelebilecek birçok alanda veri madenciliği uygulaması yapılabilir. Madencilik; her türlü elektronik ortama dayalı işte, pazarlamacılıkta, bankacılık ve sigortacılıkta artık temel bir disiplin haline gelmiştir. Örneğin pazarlama alanında kullanılan Veri Madenciliği sistemi, müşterilerin satın alma alışkanlıklarını tespit ederek bunlara yönelik stratejiler izlemektedir. Müşterilerin yaş, eğitim, cinsiyet ve lokasyon gibi temel özelliklerinin incelenmesiyle ortaya çıkan satış tahminleri ve pazar sepeti analizleri, sektöre oldukça fayda sağlamaktadır. Yine birçok işletme için müşteri duygu-durum analizi dahi yaparak elde edilecek veriler şirket stratejisinin temelini oluşturuyor. Bu karmaşık ve yığın bilgiden bizi bilgeliğe götüren süreçte ne gibi işlemler gerçekleştiriliyor bir bakalım.
Süreç
- Veri yığınını elde etme ve güvenliğini sağlama
- Veri Temizleme (Smoothing)
- Veri Bütünleştirme (Damy-Optimization)
- Veri İndirgeme
- Veri Dönüştürme (Normalization)
- İlgili Veri Madenciliği Algoritmaları Uygulama (Kümeleme, Sınıflandırma, Karar Destek Ağaçları)
- Sonuçları ilgili yazılım dillerinde test ve eğitim aşamasına sokma (R, Python, Java — Makine öğrenmesine giriş)
- Sonuçların değerlendirilmesi ve sunulması
Veri Madenciliği Metodolojileri
- CRIPS-DM Metodolojisi (Cross-Industry Standard Process for Data Mining)
- SEMMA Metodolojisi (Sample,Explore,Modify,Model and Assess)
CRIPS-DM Metodolojisi (Cross-Industry Standard Process for Data Mining)
Tüm projenin metedolojisi
İşi Tanımlama (Business Understanding):Başlangıç olarak proje hedeflerini ve ihtiyaçlarını anlama ve bunu veri madenciliği tanımına dönüştürme aşamasıdır.
Veriyi Anlama (Data Understanding):Bu aşamada veri toplama işlemiyle başlar, veri kalitesi problemlerini belirleme, veriden ilk görüleri çıkartma.. diye verinin probleme ne kadar çözüm getirdiğiyle devam eder.
Veriyi Hazırlama (Data Preparation):Topladığımız veriden veri seçme, veri temizleme, veri dönüştürme… gibi model uygun son veri setini elde etmek için yapılan işlemlerdir.
Modelleme (Modeling):Bu aşamada çeşitli modelleme tekniklerinin ve algoritmalarının seçilmesi, parametrelerin seçilmesi ve uygulama işlemleri gerçekleştirilir.
Değerlendirme:Bu aşamada oluşturulan modelin deneme ve gözden geçirilmesi yapılır, gerekiyorsa iyileştirmeler yapılır.
Uygulama:Son aşamada ise modelin analistlere ve son kullanıcılara sunulup iş süreçlerinde kullanılacak hale getirilir.
SEMMA Metodolojisi (Sample,Explore, Modify, Model and Assess)
Veri Madenciliği metedolojisi
Sample: Bu aşamada veri örnekleme ile başlar yani modelleme için veri seti seçilir.
Explore: Beklenen ve beklenmeyen değişkenler arasında ilişkileri ve anormallikleri keşfedilerek verilerin anlaşılır hale getirilir.
Modify: Modelleme süreci için verilerin temizlenmesi ve dönüştürülmesi yapılır
Model: Eğilim ve tahminleri keşfetmek için modelin verilere uygulanmasıdır.
Assess: Bu aşamada uyguladığımız modelin sonucumuza uygunluğunun değerlendirilmesi yapılır.
Veri Madenciliği Modelleri
-Tahmin Edici Modeller (Predictive)
- Sınıflama
- Regresyon
- Zaman Serisi Analizi
-Tanımlayıcı Modeller (Descriptive)
- Kümeleme Yöntemi
- Birliktelik Kuralları
Diğer yazılarda farklı teknikler ve algoritmalar hakkında konuşmak üzere,
İyi çalışmalar.