Makine öğrenmesinde, denetimli öğrenme (supervised learning), algoritmanın eğitim sırasında etiketlenmiş veriler kullanarak öğrenmesi sürecidir. Bu süreçte, algoritma girdi ve ona karşılık gelen çıktılar arasındaki ilişkiyi anlamaya çalışır. Öğrenme sonunda, algoritma yeni ve etiketlenmemiş verilere karşı tahminler yapabilir.
Denetimli öğrenmenin temel adımları şunlardır:
Veri Toplama ve İşleme: İlgili problemle ilgili etiketlenmiş veriler toplanır. Veriler, makine öğrenimi modelinin anlayabileceği bir formata işlenir.
Model Seçimi: Probleme uygun bir makine öğrenimi modeli (örneğin, karar ağacı, rastgele orman, destek vektör makinesi) seçilir.
Eğitim: Model, etiketlenmiş veriler kullanılarak eğitilir. Bu süreçte, model girdi verilerinden çıktıları tahmin etmeyi öğrenir.
Model Değerlendirme: Modelin performansı, genellikle ayrı bir test veri seti üzerinde değerlendirilir. Bu, modelin gerçek dünya verileri üzerinde ne kadar iyi performans gösterdiğini anlamak için yapılır.
Tahmin Yapma: Eğitilmiş model, daha önce görmediği yeni veriler üzerinde tahminler yapmak için kullanılır.
Denetimli öğrenme, sınıflandırma (etiketler sınıflar veya kategoriler olduğunda) ve regresyon (etiketler sürekli sayılar olduğunda) problemleri için kullanılır. Örnekler arasında e-posta spam sınıflandırması, ev fiyatlarının tahmini ve hastalık teşhisi bulunabilir.
Örnek bir senaryo üzerinden basitçe adım adım anlat
Tabii, denetimli öğrenme sürecini anlamak için basit bir senaryo üzerinden adım adım gidelim. Örneğin, bir e-posta spam filtresi oluşturuyoruz:
1. Veri Toplama ve İşleme
Veri Toplama: İlk adım, e-postaların bir koleksiyonunu toplamaktır. Bu veri seti, hem spam (istenmeyen) hem de spam olmayan (legit) e-postaları içermelidir.
Etiketleme: Her e-posta, "spam" veya "spam değil" olarak etiketlenir.
Ön İşleme: E-postalar metin formundadır, bu yüzden makine öğrenmesi algoritmasının anlayabileceği bir formata dönüştürülmesi gerekir. Bu genellikle metinleri sayısal vektörlere dönüştürerek yapılır (örneğin, kelime frekanslarına dayanarak).
2. Model Seçimi
Model Seçimi: Spam tanıma problemi için sıkça kullanılan modeller arasında Naive Bayes, Destek Vektör Makinesi (SVM), veya Karar Ağaçları bulunur. Bu örnekte, Naive Bayes modelini seçelim.
3. Eğitim
Eğitim Verisi ile Model Eğitimi: Seçilen Naive Bayes modeli, etiketlenmiş e-posta verileri ile eğitilir. Bu süreçte model, spam ve spam olmayan e-postalar arasındaki özellikleri (kelimeler, kelime grupları, vb.) öğrenir.
4. Model Değerlendirme
Test Veri Seti: Modelin başarısını değerlendirmek için, eğitimde kullanılmayan ayrı bir test veri seti kullanılır.
Performans Ölçümü: Modelin spam tanıma başarısı, çeşitli metrikler (doğruluk, hassasiyet, geri çağırma vb.) kullanılarak ölçülür.
5. Tahmin Yapma
Gerçek Dünya Uygulaması: Eğitilmiş model artık yeni ve daha önce görülmemiş e-postalar üzerinde spam olup olmadığını tahmin edebilir.
Bu örnek senaryo, denetimli öğrenmenin temel adımlarını basit bir şekilde göstermektedir. Gerçek dünya uygulamalarında, bu adımlar daha karmaşık veri setleri ve gelişmiş modelleme teknikleri ile genişletilebilir.
Bir örnekle feature ve label nedir açıklar mısın?
Tabii, "feature" (özellik) ve "label" (etiket) kavramlarını açıklamak için basit bir örnek üzerinden gidelim. Diyelim ki bir meyve tanıma sistemi geliştiriyoruz. Sistem, fotoğraflardaki meyveleri tespit edip onları "elma", "muz" veya "portakal" olarak sınıflandıracak.
Örnek: Meyve Tanıma Sistemi
Features (Özellikler)
Tanım: Features, modelin girdi olarak kullandığı ve bir nesneyi, olayı veya durumu temsil eden veri noktalarıdır.
Bu Örnekte: Meyve tanıma sistemimiz için özellikler şunlar olabilir:
Renk: Meyvenin rengi (örneğin, yeşil, sarı, turuncu).
Boyut: Meyvenin boyutu veya çapı.
Doku: Meyvenin yüzey dokusu (örneğin, pürüzlü, düz).
Ağırlık: Meyvenin ağırlığı.
Şekil: Meyvenin genel şekli.
Örnek Veri Noktası: Diyelim ki bir meyve fotoğrafımız var ve bu meyve sarı renkte, yaklaşık 20 cm uzunluğunda, düz bir yüzeye ve uzun bir şekle sahip. Bu durumda, bu özellikler (renk: sarı, boyut: 20 cm, doku: düz, şekil: uzun) girdi olarak modelimize verilir.
Labels (Etiketler)
Tanım: Label, öğrenme sürecinde modelin tahmin etmeye çalıştığı sonuçtur. Genellikle denetimli öğrenme sürecinde, her veri noktası için bir etiket bulunur.
Bu Örnekte: Meyve tanıma sistemimiz için etiketler, her bir meyvenin türüdür.
Örnek Etiketler: Elma, muz, portakal.
Örnek Veri Noktası: Yukarıdaki sarı, uzun meyve için doğru etiket "muz" olacaktır.
Bu örnekte, meyvenin renk, boyut, doku, ağırlık ve şekil gibi özellikleri, modelimizin öğrenmesi ve anlaması gereken girdilerdir. "Elma", "muz" veya "portakal" gibi etiketler ise modelin bu girdileri kullanarak ulaşmaya çalıştığı sonuçlardır. Eğitim sürecinde, model bu özellikler ile etiketler arasındaki ilişkiyi öğrenir ve yeni veriler geldiğinde meyvenin türünü tahmin edebilir.