Yapay zeka modelimi eğitmekte kullanıcağım veri setindeki verilerimi düzeltmem için örnek senaryolarla beraber yöntemler

Veri temizleme (data cleaning) ve ön işleme (data preprocessing), makine öğrenimi modelleri eğitilirken kritik bir adımdır. Veri setlerindeki hatalar, eksik veriler veya tutarsızlıklar modelin performansını olumsuz etkileyebilir. Aşağıda, yaygın veri sorunlarını düzeltmek için yöntemler ve örnek senaryolar bulabilirsin:

1. Eksik Veri (Missing Data)

Senaryo: Bir veri setindeki bazı satırlarda "yaş" veya "gelir" gibi özelliklerde eksik veriler var.

Yöntemler:
- Kaldırma (Removing Rows or Columns): Eğer eksik veri miktarı çok azsa, bu satır veya sütunları kaldırabilirsin.
  - Örnek: Veri setinde toplam 1000 kayıt var ve sadece 5'inde "yaş" bilgisi eksik. Bu satırları kaldırmak model üzerinde çok büyük bir etki yaratmaz.
- Değer Atama (Imputation): Eksik verileri ortalama, medyan, en çok tekrar eden değer (mod) gibi yöntemlerle doldurabilirsin.
  - Örnek: "Yaş" kolonunda eksik değerler varsa, yaşların ortalamasını hesaplayıp eksik olan yerlere bu ortalamayı koyabilirsin.
- Tahmin Etme (Predictive Imputation): Diğer özelliklere bakarak eksik verileri tahmin eden bir model kullanabilirsin.
  - Örnek: Kayıp "gelir" değerlerini tahmin etmek için yaş, meslek, çalışma süresi gibi diğer özelliklere dayanan bir regresyon modeli kurabilirsin.

2. Aykırı Değerler (Outliers)

Senaryo: Gelir verileri incelendiğinde çoğunlukla 50.000 TL ile 100.000 TL arasında değerler varken, bazı kişiler için bu değerler milyonlara ulaşıyor.

Yöntemler:
- Z-Score veya IQR Kullanarak Ayıklama: Z-score kullanarak ortalamadan kaç standart sapma uzaklıktaki verilerin aykırı olduğunu tespit edebilir veya interquartile range (IQR) yöntemini kullanarak aykırı değerleri belirleyebilirsin.
  - Örnek: Z-Score > 3 olan gelir verilerini aykırı olarak kabul edip bu satırları temizleyebilirsin.
- Winsorization: Aykırı değerleri belli bir sınırla değiştirebilirsin. Örneğin, en uçtaki %5 değerleri %95'e sabitleyebilirsin.
- Dönüşüm (Transformation): Verilerin dağılımını normalleştirmek için logaritmik dönüşüm uygulayabilirsin.
  - Örnek: Aykırı gelir verilerini logaritmik olarak dönüştürmek, büyük farkları azaltır.

3. Tutarsız Veri (Inconsistent Data)

Senaryo: "Evet" ve "Hayır" şeklinde olması gereken bir sütunda "evet", "Evet", "EVET", "hayir" gibi farklı yazım şekilleri mevcut.

Yöntemler:
- Metin Temizleme (Text Normalization): Tüm metin verilerini küçük harfe çevirip (lowercase) ardından tutarsızlıkları düzenleyebilirsin.
  - Örnek: "evet", "Evet", "EVET" gibi tüm farklı yazımlar "evet" olarak normalize edilebilir.
- Harici Kaynaklarla Doğrulama: İsimler, şehir adları gibi veri noktalarını resmi veri kaynakları ile karşılaştırıp düzeltebilirsin.
  - Örnek: "İstanbul" kelimesinin bazı satırlarda "İstnbul" gibi yazıldığı durumlarda doğru yazım kaynağı ile otomatik düzeltme yapabilirsin.

4. Fazla Veri (Redundant Data)

Senaryo: Aynı kişiye ait birden fazla satırda tekrarlanan veriler bulunuyor.

Yöntemler:
- Çift Kayıtların Kaldırılması (Deduplication): Aynı ID'ye veya aynı kişisel bilgilere sahip birden fazla satırı tespit edip fazladan olanları kaldırabilirsin.
  - Örnek: Aynı müşteri ID'sine sahip iki satır varsa, birini kaldırmak doğru olabilir.
- Özellik Birleştirme (Feature Aggregation): Eğer aynı kişiye ait farklı veri noktaları varsa, bu verileri birleştirip tek bir satıra dönüştürebilirsin.
  - Örnek: Aynı müşteriye ait farklı satış verilerini toplayarak tek bir toplam satış miktarı haline getirebilirsin.

5. Veri Tipi Hataları (Data Type Errors)

Senaryo: "Yaş" sütununda bazı veriler sayısal olmasına rağmen string formatında saklanmış, bazıları ise hatalı girişlerden dolayı negatif değer almış.

Yöntemler:
- Dönüşüm (Conversion): Verinin doğru türde olup olmadığını kontrol edip gerekirse dönüştürebilirsin (örneğin, string'ten integer'a).
  - Örnek: "25" olarak string biçiminde saklanan yaş verisini int(25) olarak dönüştürebilirsin.
- Negatif veya Mantıksız Değerlerin Düzeltilmesi: Negatif yaş gibi mantıksız verileri tespit edip düzeltme veya kaldırma yapabilirsin.
  - Örnek: -25 yaşı gördüğünde bu satırı kaldırabilir veya eksik veri olarak işaretleyebilirsin.

6. Ölçekleme (Scaling)

Senaryo: Veri setindeki bazı özellikler birbirinden çok farklı büyüklüklerde olabilir. Örneğin, "gelir" 100.000 TL cinsinden iken, "yaş" 0-100 aralığında.

Yöntemler:
- Min-Max Scaling: Verileri 0 ile 1 arasında ölçekleyerek normalleştirebilirsin.
  - Örnek: "gelir" ve "yaş" verilerini, her ikisini de 0 ile 1 arasında bir aralığa çekerek ölçekleyebilirsin.
- Z-Score Normalization: Verileri ortalaması 0, standart sapması 1 olacak şekilde normalleştirebilirsin.
  - Örnek: Z-score yöntemiyle her veri noktasının ortalamadan kaç standart sapma uzaklıkta olduğunu hesaplarsın.

Bu yöntemleri, modelini eğitirken verinin kalitesini artırmak için kullanabilirsin. Her adımda veri setinin karakteristiklerine göre en uygun temizleme stratejisini seçmek önemlidir.

Yapay zeka modelimi eğitmekte kullanıcağım veri setindeki verilerimi düzeltmem için örnek senaryolarla beraber yöntemler

1. Eksik Veri (Missing Data)

Senaryo: Bir veri setindeki bazı satırlarda "yaş" veya "gelir" gibi özelliklerde eksik veriler var.

2. Aykırı Değerler (Outliers)

Senaryo: Gelir verileri incelendiğinde çoğunlukla 50.000 TL ile 100.000 TL arasında değerler varken, bazı kişiler için bu değerler milyonlara ulaşıyor.

3. Tutarsız Veri (Inconsistent Data)

Senaryo: "Evet" ve "Hayır" şeklinde olması gereken bir sütunda "evet", "Evet", "EVET", "hayir" gibi farklı yazım şekilleri mevcut.

4. Fazla Veri (Redundant Data)

Senaryo: Aynı kişiye ait birden fazla satırda tekrarlanan veriler bulunuyor.

5. Veri Tipi Hataları (Data Type Errors)

Senaryo: "Yaş" sütununda bazı veriler sayısal olmasına rağmen string formatında saklanmış, bazıları ise hatalı girişlerden dolayı negatif değer almış.

6. Ölçekleme (Scaling)

Senaryo: Veri setindeki bazı özellikler birbirinden çok farklı büyüklüklerde olabilir. Örneğin, "gelir" 100.000 TL cinsinden iken, "yaş" 0-100 aralığında.

165 System Design Sorusu ve Cevabı (Junior Yazılımcılar İçin)

3- Domain-Driven Design ve Hexagonal(Altıgen) Mimari - Petter Holmström - Çevirsi

Categories

Main Tags

Translate

Latest Posts

Popular Posts

165 System Design Sorusu ve Cevabı (Junior Yazılımcılar İçin)

Yüksek Trafikli Yazılım Mimarisi - Full Rehber

3- Domain-Driven Design ve Hexagonal(Altıgen) Mimari - Petter Holmström - Çevirsi

نموذج الاتصال