Kümele Teknikleri-Clustering ve K-Means Algoritması
Clustering ( Kümeleme ) bir veri setinde benzer özellikler gösteren verilerin gruplara ayrılmasına denir. Bu grupların her birine “küme” adı verilir. Aynı küme içinde benzerlikler fazla, kümeler arası benzerlikler azdır.
Kümeleme yöntemlerinde, çıktı değerlerinin olmadığı durumlarda sadece girdi değerlerinden hareketle yani denetimsiz öğrenme(unsupervised learning) ile bu girdiler gruplandırılmaktadır.
Unsupervised learning(Denetimsiz öğrenme):
Veri kümesi ile çıktıların olmadığı öğrenme metodudur. Veri kümesindeki verileri yorumlayarak ortak noktaları bulmak ve bunları kümeleştirme işlemi yapılarak anlamlı bir veri elde edebilmektir.
Örnek;
- Evlerin büyüklüğü ve yerleri bilgisi paylaşıldığında bunun hakkında verilerin yorumlanması.
- Bir alışveriş sitesinde alınan bir ürünün yanında kullanıcıların alabileceği diğer ürünlerin tavsiye olarak belirlenmesi.
Supervised learning(Denetimli öğrenme):
Gözetimli öğrenmede, öğrenilmek istenen kavram ile ilgili toplanan gözlemler bir eğitim kümesi olarak belirlenir. Eğitim kümesinde her örnek için istenen çıktı değerleri de verilir. Bu bilgiler kullanılarak giriş ve çıkış arasında bir ilişki oluşturulur. Oluşturulan ilişki kullanılarak gelecekte karşılaşılacak gözlemlerinin karşılık geldiği çıktıları tahmin edilebilir.
Örnek;
- Verdiğiniz resimlerin insanın yüzü olup olmadığına karar veren bir sistem tasarlamak istiyorsanız ilk önce farklı insan yüzlerini verip bunları yüz şeklinde işaretlerseniz, içerisinde yüz olmayan resimleri de tam tersi yönünde işaretlerseniz.
K-MEANS Algoritması
Kümeleme analizi nitelikler arasında bağımlı ve bağımsız gibi bir ayrım gözetmeden tüm ilişkileri inceler ve nesneleri nispeten homojen gruplara ayırır. Bu yöntemlerde kullanılan algoritmalardan biri ve en bilineni K-Ortalamalar Algoritması (K-Means)dir. Bu algoritma, uzaklık ölçüsü hesabına dayalı (farklı uzaklık hesaplama yöntemleri mevcut) bir algoritmadır ve bir orta noktanın bir kümeyi temsil edebileceği düşüncesine dayanmaktadır.
K adet özgün küme oluşturduğu ve her kümenin merkezi, kümedeki değerlerin ortalaması olduğu için K-Ortalamalar denmektedir.(Harrington’dan aktaran Balaban ve Kartal, 2015a: 124)
Algoritma temel olarak 4 aşamadan oluşur:
- Küme merkezlerinin belirlenmesi
- Merkez dışındaki örneklerin mesafelerine göre sınıflandırılması
- Yapılan sınıflandırmaya göre yeni merkezlerin belirlenmesi (veya eski merkezlerin yeni merkeze kaydırılması)
- Kararlı hale (stable state) gelinene kadar 2. ve 3. adımların tekrarlanması.
K-Means algoritmasında K sayısını belirlemek bir problemdir. Bu sayıyı belirlemek için de çeşitli yöntemler mevcuttur. Ayrıca bu sayıyı belirlemediğimiz bir X-Means algoritması da geliştirilmiştir.
Kaynaklar: