Veri Madenciliği Dersi 1. Ünite Özet

Açıköğretim ders notları öğrenciler tarafından ders çalışma esnasında hazırlanmakta olup diğer ders çalışacak öğrenciler için paylaşılmaktadır. Sizlerde hazırladığınız ders notlarını paylaşmak istiyorsanız bizlere iletebilirsiniz.

Açıköğretim derslerinden Veri Madenciliği Dersi 1. Ünite Özet için hazırlanan  ders çalışma dokümanına (ders özeti / sorularla öğrenelim) aşağıdan erişebilirsiniz. AÖF Ders Notları ile sınavlara çok daha etkili bir şekilde çalışabilirsiniz. Sınavlarınızda başarılar dileriz.

Temel Kavramlar

Giriş

İletişim ve bilişim teknolojilerinde yaşanan gelişmeler dünyada her şeyin hızla değişmesine neden olmaktadır. İşletmeler açısından ele alındığında bu değişimler; ekonomik koşullarda, iş yapma biçimlerinde, müşteri beklentilerinde, müşteri eğilimlerinde, rakiplerin stratejilerinde vb. ortaya çıkmaktadır. İşletmelerin bu değişimlere ayak uydurabilmesi, rakipleriyle yarışabilmesi ve varlıklarını başarılı bir biçimde sürdürebilmesi için, işletmelerde karar verici konumunda olan yöneticilerin, doğru kararlar vererek doğru stratejiler belirlemeleri gerekmektedir.

Günümüzde bilişim teknolojisinde gelinen noktada çok büyük miktarda verinin kolaylıkla elde edilmesi ve kaydedilerek saklanması olanaklı hâle gelmiştir. Bununla birlikte veriler tek başlarına bir anlam ifade etmeyip belirli bir amaca yönelik olarak işlendiklerinde anlamlı bilgilere dönüşürler. Verilerin analiz edilmesinde kullanılan geleneksel yöntemler veri miktarında meydana gelen büyük artış karşısında yetersiz kalmaya başlamıştır. Veri madenciliğinin ortaya çıkışı da büyük miktarda veriyi analiz edebilme ve işleyebilme ihtiyacından kaynaklanmıştır. Veri madenciliği tek başına çözümün kendisi olmayıp çözüme ulaştıracak kararın verilmesine destek sağlayacak bilgilerin ortaya çıkarılmasında kullanılan bir araçtır.

Veri Madenciliğinin Tarihsel Gelişimi

Veri madenciliğinin tarihi bilgisayarların hayatımıza girmesiyle başlamıştır. Verilerin depolanması ihtiyacı ile birlikte, 1960’lı yıllardan itibaren teknoloji dünyası veri tabanı kavramı ile tanışmıştır. 1960’ların sonunda ise basit öğrenmeli bilgisayarlar geliştirilmiştir.

Perseptron insan beyninde yer alan sinir hücrelerinin (nöronların) ilk yapay modeline verilen isim olup algılayıcı, fark edici anlamındadır. 1957 yılında Frank Rosenblatt tarafından geliştirilen ve tekrar eden, benzerlik gösteren özelliklerin bilgisayar tarafından algılanabilmesini sağlayan bir algoritmadır. Perseptron’ların yalnızca çok basit olan kuralları öğrenebileceği, bazı basit mantıksal işlemlerde ise yetersiz kaldığı 1969’da Minsky ve Papert tarafından ortaya konulmuştur. Zaman içinde giderek büyüyen veri tabanlarının organizasyonu, düzenlenmesi ve yönetimi de zorlaşmıştır. Bu zorlukların üstesinden gelebilmek amacıyla ise veri modelleme kavramı ortaya atılmıştır.

İlk veri modelleri; Hiyerarşik Veri Modeli ve Ağ Veri Modeli olarak adlandırılan basit veri modelleridir. 1970’lerde İlişkisel Veri Tabanı Yönetim Sistemleri uygulamaları kullanılmaya başlanmış, bu konuyla ilgilenen uzmanlar basit kurallara dayanan uzman sistemler geliştirmişler ve basit anlamda makine öğrenimini sağlamışlardır. 1980’lerde veri tabanı yönetim sistemleri yaygınlaşmış ve pek çok farklı alanda uygulanır olmuştur.

Günümüzde bellek kapasitesi GigaByte ve TeraByte’tan sonra Peta, Exa ve Zetta ön ekleriyle ifade edilen boyutlara ulaşmıştır. Bunun sonucu olarak milyarlarca Byte veri fiziksel olarak çok küçük boyutlardaki donanım ögelerinde saklanabilir hâle gelmiştir.

1990’lara gelindiğinde veri miktarının sürekli katlanarak arttığı veri tabanları içinden, faydalı bilgilerin nasıl çıkarılabileceği araştırma konusu olmuştur. Bu amaçla yapılan çalışmalardan en önemlisi, 1989’da KDD (Knowledge Discovery in Database) IJCAI-89 Veri Tabanlarında Bilgi Keşfi Çalışma Grubu toplantısıdır. 1991 yılında ise KDD (IJCAI)-89’un sonuç bildirgesi sayılabilecek “Knowledge Discovery in Real Databases: A Report on the IJCAI-89 Workshop” makalesi ile Bilgi Keşfi ve Veri Madenciliği ile ilgili temel tanım ve kavramlar ortaya konmuştur. 1992 yılında veri madenciliği için ilk yazılım geliştirilmiştir. 2000’li yıllarda veri madenciliği sürekli gelişmiş ve hemen hemen tüm alanlara uygulanmaya başlanmıştır. İşletmeler, günümüzde yoğun olarak Müşteri İlişkileri Yönetimi (CRM) ve Kurumsal Kaynak Planlaması (ERP) gibi uygulamalar ve teknikler aracılığıyla veri madenciliği yapmaktadır. S:4, Tablo 1.1de Veri Madenciliği Tarihsel Süreci Tablosu incelenebilir.

Veri Madenciliğine Etki Eden Disiplinler

Bu yeni yaklaşımların temelinde istatistik, makine öğrenimi, veritabanı sistemleri önemli bir yer tutmaktadır.

İstatistik , verilerin analizi ve değerlendirilmesi konusunda geçmişten günümüze yoğun bir biçimde kullanılan bir disiplindir. 1990’lardan sonra, ilgilenilen verinin yığınlar içinden çekilip çıkarılması ve analizinin yapılarak kullanıma hazır hâle getirilmesi sürecinde istatistik, veri madenciliği ile ortak bir platformda ve sıkı bir çalışma birlikteliği içinde olmuştur.

Makine öğrenimi , insan öğrenmesinde söz konusu olan özelliklerin algoritmalar yardımıyla bilgisayarlara da uygulanabileceği ve bilgisayarların da insanlar gibi öğrenebileceği düşüncesini temel alan bir disiplindir. Bu öğrenmeler sonucunda çıkarımlarda bulunarak geçmiş veri örnekleri yardımıyla gelecekte daha iyi sonuçlar üretme konusunda veri madenciliği uygulamasına katkıda bulunurlar.

Görselleştirme ; verilerin daha kolay anlaşılmasına, analiz edilmesine ve geleceğe yönelik tahminlerde bulunulmasına önemli katkı sağlamaktadır. Veri madenciliğinde kullanılan görselleştirme teknikleri ilk zamanlarda sadece iki boyutlu serpilme ve serpilme matris çizimleri ya da üç boyutlu grafikler biçimindeydi. Ancak zaman içinde, verilerin öznitelik sayılarındaki artış klasik istatistiğin sunduğu iki veya üç boyutlu grafiklerin yetersiz kalması sonucunu da birlikte getirmiştir. Yer Konum veri analizi, sinyal işleme, görüntü analizi gibi teknikler görselleştirme amacıyla kullanılan tekniklere verilebilecek örneklerdir.

Veritabanı ; gelişigüzel veri yığınları olmayıp birbiriyle ilişkili olan ve amaca uygun biçimde düzenlenmiş, mantıksal ve fiziksel olarak tanımlanmış veriler bütünüdür. Veritabanı yönetim sistemi ise kısaca veritabanı tanımlamak, veritabanı oluşturmak, veritabanında işlem yapmak, veritabanının farklı kullanıcı yetkilerini belirlemek, veritabanının bakımını ve yedeklemesini yapmak için geliştirilmiş programlar bütünüdür. Veritabanı ve veri tabanı yönetim sisteminin birlikte oluşturduğu bütün veritabanı sistemi olarak ifade edilmektedir.

Örüntü , olaylar ve nesneler arasında düzenli ve sistematik bir biçimde tekrarlanan ilişki modellerini ifade etmek için kullanılan bir kavramdır.

Örüntü tanıma : Olaylar ve nesneler arasında daha önceden tanımlanmış, düzenli ve sistematik biçimde tekrar eden ilişkileri bir model olarak kabul eden ve bu modelin (örüntünün) benzerlerini ya da en benzerini veritabanı içinden arama ve bulmaya yönelik teknolojidir. Örüntünün konusu yazılı bir metin olabileceği gibi parmak izi, ses, yüz tanıma, kan hücrelerinin karşılaştırılması, el yazılarının belirlenmesi gibi alanlar da olabilir.

Veri Madenciliği Kavramı

İşletme politikalarının ve stratejik kararların temel ögesi veri ve veriden elde edilmiş güvenilir, güncel ve doğru bilgidir.

Veri, ham gözlemler, işlenmemiş gerçekler ya da izlenimlerdir ve harf, rakam, çeşitli sembol, işaretler yardımıyla temsil edilir.

Enformasyon, verinin bir anlam oluşturacak şekilde düzenlenmiş hâlidir.

Bilgi , verinin işlenmiş ve dönüştürülmüş halidir. Karar vermede etkili olan asıl unsur veriden ziyade bilgidir.

İhtiyaç duyulan veriye hızlı ve kolay biçimde erişebilmek amacıyla, verilerin yönetimi sorununun çözümünde veritabanı sistemleri , verileri işleyip anlamlı bilgilere dönüştürmek amacıyla yeni yöntem ve yaklaşımlar belirleme zorunluluğunun çözümü için veri madenciliği yöntemler i geliştirilmiştir. Veritabanlarında kayıtlı olan veriler madenlerden çıkarılıp işlenmeyi bekleyen değerli maddelere benzetilebilir. Bu nedenle büyük miktarda yığın veri içinden bilgiye ulaşmak amacıyla kullanılan teknikler bütünü de veri madenciliği adı altında ele alınmaktadır. Veri madenciliği çalışmaları yapmak için var olması gereken iki temel öge veri ve veritabanıdır .

Veri ambarı işletmelerde iç veri kaynakları ile dış veri kaynaklarının birleştirilmesi ve düzenlenmesi ile oluşturulmuş, üzerinde veri madenciliği işlemlerinin gerçekleştirileceği veriyi sağlayan daha geniş ve özel veritabanlarına verilen isimdir. Veri ambarı oluşturulmasına ilişkin süreç ve ilgili olduğu diğer ögeler S:8, Şekil 1.2’de incelenebilir.

Üst veri , veri ambarında yer alan veriler hakkındaki tanımlamalar olup veri ambarına ilişkin veri kataloğu olarak düşünülebilir. Veri deposu ise veri ambarının bir alt kümesi olup işletmenin yalnızca belirli bir bölümünü ya da belirli bir iş sürecini, daha özel bir fonksiyon alanını ilgilendiren parçasıdır. Veri ambarı tüm işletmeyi ilgilendirirken veri deposu tek bir konuya ya da özel bir amaca yönelik verileri içerir.

OLAP (Online Analytical Processing – Çevrimiçi Analitik İşleme) veri ambarında yer alan veriler üzerinde çok boyutlu, çok yönlü analiz ve sorgulama yapılmasını sağlayan sistemlerdir. OLAP işlemini gerçekleştirmek üzere veri ambarı ile etkileşim içinde olan OLAP sunucuları, karmaşık analitik sorguların kısa sürede gerçekleştirilmesine imkân veren çok boyutlu veri modelini kullanırlar. Çok boyutlu veri modeli örneği için S:9, Şekil:1,3 incelenebilir.

Veri madenciliği , veriden örüntülerin çıkarılması amacıyla çeşitli algoritmaların uygulanmasıdır. Elde edilen örüntü ve kurallar karar vermeye ve bu kararların sonuçlarını tahmin etmeye destek olacak biçimde kullanılabilecektir.

Veritabanlarında Bilgi Keşfi Süreci

Veritabanlarında bilgi keşfi, veriden faydalı bilginin keşfedilmesi sürecinin tamamıdır. Veri madenciliği ise bu sürecin bir adımı olup veriden örüntülerin belirlenmesi ve aktarımı için özel algoritmaların uygulanması işlemlerine karşılık gelmektedir. Veritabanlarında Bilgi Keşfi sürecinin adımları S:11, Şekil 1.4’te incelenebilir .

Bilgi Keşfi sürecinde izlenmesi gereken temel aşamalar;

  1. Amacın Tanımlanması
  2. Veriler Üzerinde Ön İşlemlerin Yapılması
  3. Modelin Kurulması ve Değerlendirilmesi
  4. Modelin Kullanılması ve Yorumlanması
  5. Modelin İzlenmesi

Sıralanan bu aşamalara bütünsel olarak bakıldığında, veri madenciliği sürecinde;

biçiminde bir uygulamanın söz konusu olduğu görülebilir.

Amacın Tanımlanması

Bu aşamada, işletmenin ya da kurumun veri madenciliğini hangi amaca yönelik olarak gerçekleştirmek istediği belirlenir. Buna ek olarak, elde edilecek sonuçların başarı düzeylerinin nasıl ölçüleceği de tanımlanmalıdır. Ayrıca, süreç sonunda yapılacak değerlendirme ve öngörülerin yanlış olması durumunda katlanılacak maliyetlere ve doğru olması durumunda elde edilecek kazanımlara ilişkin tahminlere de yer verilmelidir.

Veriler Üzerinde Ön İşlemler Yapılması

Verilerin veri madenciliği için hazırlanması anlamındadır. Ön işlemler aşamasında yeterli özenin gösterilmemesi, model kurma aşamasından ön işlemler aşamasına tekrar tekrar geri dönülmesine ve verinin yeniden düzenlenmesine neden olacaktır. Veriler üzerindeki ön işlemler genel olarak; Verilerin toplanması ve birleştirilmesi, verilerin temizlenmesi, verilerin yeniden yapılandırılması biçiminde sınıflandırılabilir. Veriler Üzerinde Yapılan Ön İşlemler S:13, Şekil1,5’de incelenebilir.

Verilerin Toplanması ve Birleştirilmesi

Öncelikle tanımlanan amaca ve probleme uygun verilerin neler olduğu ve bu verilerin hangi kaynaklarda yer aldığı araştırılır. Gerekli verilerin toplanmasında öncelikli olarak kurumun kendi veritabanı ve veri kaynaklarından yararlanılır. Bu tür veriler iç kaynaklı verilerdir . Kamuya ait kurumsal veri tabanlarından veya veri pazarlayan farklı kuruluşların veri tabanlarından da yararlanılabilir. Örneklenen veri kaynakları ise dış veri kaynaklarıdır .

Verilerin Temizlenmesi

Kayıp ya da eksik değerleri tamamlamak, aykırı değerleri belirleyerek gürültüyü ortadan kaldırmak ve verilerdeki tutarsızlıkları, uyumsuzlukları gidermek için kullanılan birçok yaklaşımı ve tekniği kapsar. Veritabanlarındaki kayıtlarda eksik olan veriler Kayıp veriler dir. Kayıp veriler çeşitli nedenlerden kaynaklanabilir; veri toplamada yanlış araçların kullanılması, veri girişinde hata yapılması ya da veri toplama aşamasında sorulara eksik cevap verilmesi bu nedenlerden bazılarıdır.

Gürültülü Veri: Veritabanlarında doğru olmayacak kadar uç değerler, aykırı değer ya da sıra dışı değer olarak tanımlanır. Bu şekildeki aykırı değerler ya da farklı sebeplerle yanlış girilmiş değerler genel olarak gürültülü veri olarak tanımlanır.

Kayıp verilerin neden olacağı olumsuzlukları ortadan kaldırmak amacıyla kullanılan yaklaşımlar:

  1. Kayıp veri içeren kaydı veri kümesinden çıkarmak,
  2. Kayıp verileri tek tek yazmak,
  3. Kayıp verilerin hepsi için aynı veriyi girmek,
  4. Kayıp veri yerine tüm verilerin ortalama değerinin girilmesi,
  5. Kayıtlarda yer alan diğer değişkenler yardımıyla kayıp verilerin tahmin edilmesidir.

Verilerdeki gürültünün temizlenmesi amacıyla kullanılan yaklaşımlar ise;

  1. Bölümleme yöntemiyle gürültünün temizlenmesi,
  2. Sınır değerleri kullanılarak gürültünün temizlenmesi,
  3. Kümeleme yöntemiyle düzeltme yapılması ve gürültünün temizlenmesi,
  4. Regresyon yöntemiyle düzeltme yapılması ve gürültünün temizlenmesidir.

Verilerin Yeniden Yapılandırılması

Veri madenciliği amacıyla kullanılan model, teknik ve algoritmalar belirli yapılardaki veriler üzerinde uygulanabilir. Eldeki verilerin kullanılacak algoritmaya uygun hâle getirilmesi, diğer bir ifadeyle yeniden yapılandırılması gerekir. Bazı algoritmalar ise yalnızca 0 ve 1’lerle temsil edilen veriler üzerinde çalışır.

  1. Verilerin normalizasyonu: Farklı değerlerdeki verilerin 0,0-1,0 gibi aralıklardaki değerlerle temsil edilmesi işlemine normalizasyon denir. Normalizasyon işlemi için kullanılabilen yöntemlerden bir kısmı; min-maks normalizasyonu, sıfır-ortalama normalizasyonu ve ondalıklı normalizasyon biçiminde sıralanabilir.
  2. Verilerin azaltılması: Bellek kapasitelerinin artmış olması ve bilgisayar sistemlerinin ucuzlaması sonucunda veri tabanlarında gerekli olsun ya da olmasın çok miktarda veri tutulmaktadır. Verilerin azaltılması amacıyla geliştirilen çeşitli yöntemler bulunmaktadır. Bu yöntemlerden bazıları; boyut sayısını azaltma, veri sıkıştırma, temel bileşenler analizi, faktör analizi biçiminde sıralanabilir
  3. Verilerin dönüştürülmesi : Analize konu olan veri kümesinin gerekli veriyi içermesi ancak verinin kullanılan algoritmaya uygun yapıda olmaması durumunda gerçekleştirilir. Verilerin dönüştürülmesi, algoritmada doğrudan kullanılacak biçimde verinin kendi içinde yeniden düzenlenmesini ifade etmektedir

Modelin Kurulması ve Değerlendirilmesi

Veri hazırlama ve model kurma aşamaları, en iyi olduğu düşünülen modele ulaşılıncaya kadar tekrarlanır.

Modelin Kullanılması ve Yorumlanması

Kurulan ve geçerliliği sınanarak uygulanmak üzere kabul edilen modelin kullanıldığı aşamadır. Probleme çözüm getirmediği düşünülüyorsa süreç yenilenmelidir.

Modelin İzlenmesi

Ne kadar doğru ve iyi bir model kurulmuş olsa da sistem zaman içinde ortaya çıkacak değişimlerden etkilenebilecektir. Bu nedenle model kullanılmaya başlandıktan sonra, sistemin ne kadar iyi çalıştığının sürekli olarak izlenmesi ve ölçülmesi bir gerekliliktir.

Veri Madenciliğinde Kullanılan Modeller

Veri madenciliği büyük hacimli verilerin işlenmesi için geliştirilmiş algoritmalar ile geleneksel veri analiz yöntemlerinin karması olan bir teknolojidir. Veri madenciliği yazılımlarının öğrenme özelliği vardır. Yazılımlar kendilerine verilen örnek veriler üzerinde inceleme yaparak kullandıkları algoritmalarla bu verilerden bazı sonuçlar ve kurallar çıkarırlar. Yazılımın veriler üzerinde yaptığı bu inceleme işlemine öğrenme adı verilir. Yazılım bu çıkarımları verilerin kalan kısmına uygulayarak ne kadar öğrendiği konusunda kendini sınar. Bu sınama sonucunda eğer gerekli görürse başlangıçta yaptığı çıkarımlarını yeniler.

Yenilenen çıkarımlar (sonuçlar, kurallar) üzerinde yapılan ayrı bir işlemle doğrulama gerçekleştirilir. Aşırı öğrenme algoritmanın çıkardığı kuralların sadece üzerinde çalıştığı veriler için geçerli olmasını, dışarıdan başka verilere uygulandığında ise geçersiz olması durumunu ifade eder. Veri madenciliğinde kullanılan modeller; Tahmin edici modeller, Tanımlayıcı modeller olmak üzere temelde iki başlık altında incelenebilir (S:19, Şekil:1.6 ).

Tahmin Edici Modeller

Eldeki verilerden hareketle bir model geliştirilmesi ve geliştirilen bu model kullanılarak önceden sonuçları bilinmeyen veri kümeleri için sonuçların tahmin edilmesini amaçlar. Tahmin edici modeller özellikle karar verme süreci açısından büyük önem taşır. Tahmin edici modellere ilişkin yazılımlardaki öğrenme, daha çok bir insanın öğrenme biçimine benzetilebilir.

Denetimli öğrenmede ilgili veriler seçilen algoritmaya uygun olarak hazırlandıktan sonra, ilk aşamada verinin bir kısmı modelin öğrenimi, diğer kısmı ise modelin geçerliliğinin test edilmesi için ayrılır. Modelin öğrenimi, öğrenim kümesi kullanılarak gerçekleştirildikten sonra, test kümesi ile modelin doğruluk derecesi belirlenir.

Denetimsiz öğrenmede , kümeleme analizinde olduğu gibi ilgili örneklerin gözlenmesi ve bu örneklerin özellikleri arasındaki benzerliklerden hareket ederek sınıfların tanımlanması amaçlanmaktadır.

Tahmin edici modeller kendi içinde regresyon modelleri ve sınıflandırma modelleri biçiminde ikiye ayrılır.

Regresyon Modelleri: Regresyon, bağımsız değişkenler ile bağımlı değişkenler arasındaki ilişkiyi en iyi tanımlayan fonksiyonu elde etmek için uygulanan istatistiksel tekniktir.

Sınıflandırma Modelleri: Sınıflama, veri sınıfı ve kavramlarını tanımlama ve ayırt etmeyi sağlayan bir model kümesini bulma sürecidir. Sınıflandırmada, veriler istatistik ve/ veya makine öğrenimi yöntemleri kullanılarak önceden belirlenen sınıflara atanır. Sınıflama modelleri, sınıflar önceden incelenen veriler aracılığıyla oluşturulduğundan, denetimli öğrenme modelleridir.

Regresyon ve sınıflandırma modellerinden en yaygın kullanılanlar;

Karar ağaçları: Sınıflandırma problemlerinde en çok kullanılan algoritmalardan biridir.

Yapay sinir ağları: Yapay sinir ağları karmaşık hesaplamaları gerçekleştiren biyolojik sinir sistemlerini model alır. Bu yöntemle oluşturulan modellerin yorumlanması diğerlerine göre daha zordur.

Genetik algoritmalar: Karmaşık eniyileme problemlerinin çözümünde kullanılan bir teknolojidir. Doğrudan bir veri madenciliği modeli değildir.

Zaman serisi analizi: Zaman değişkeni ile ilişkilendirilmiş verilerin tahmin edilmesi problemlerinde kullanılır.

k-en yakın komşu : Temel olarak algoritma sınıfları belli olan bir örnek kümesindeki gözlem değerlerini inceler. Daha sonra elde edilen bu bilgi sisteme eklenen verinin ait olduğu sınıfın tespitinde kullanılır. Sınıflandırma yapılırken veritabanındaki her bir kayıdın diğer kayıtlarla olan uzaklığı hesaplanır. Ancak, bir kayıt için diğer kayıtlardan sadece k adedi göz önüne alınır. Gözlem değerlerinin arasındaki uzaklıkların hesaplanmasında “ Öklid” uzaklık formülü kullanılır.

Bayes sınıflandırması : Elde var olan, mevcut sınıflanmış verileri kullanarak yeni bir verinin mevcut sınıflardan herhangi birine girme olasılığını hesaplayan yöntemdir.

Tanımlayıcı Modeller

Bu modeller tahmin edici modellerin aksine analiz edilen verilerin özelliklerini incelemek için kullanılan modellerdir. En yaygın kullanılan tanımlayıcı modeller; kümeleme, birliktelik kuralları, sıra örüntü analizi ve özetleme biçiminde sıralanabilir.

Kümeleme: Kümeleme, verileri birbirlerine olan benzerliklerine göre anlamlı ve/ veya kullanışlı gruplara ayırmaktır.

Birliktelik kuralları: Birliktelik kuralları veriler arasındaki güçlü birliktelik özelliklerini tanımlayan örüntüleri keşfetmek için kullanılan analiz yöntemidir.

Sıra örüntü analizi: Birliktelik kurallarına benzer bir yapıda olup aynı zamanda olayların zaman sıralarıyla ilgilenir.

Özetleme: Karakterizasyon veya genelleştirme olarak da adlandırılan özetleme, verileri basit tanımları yapılmış alt gruplar içine yerleştirme işlemidir.

Veri Madenciliğinin Diğer Veri Analizi Yaklaşımları ile Karşılaştırılması

Veri Madenciliğinin Uygulandığı Alanlar

Veri madenciliğinin yoğun ve başarılı bir biçimde kullanıldığı başlıca alanlar; pazarlama, finans (bankacılık, sigortacılık, borsa), perakendecilik, sağlık, telekomünikasyon, endüstri ve mühendislik, eğitim, tıp, biyoloji, genetik, kamu, istihbarat ve güvenlik biçiminde sıralanabilir.

Giriş

İletişim ve bilişim teknolojilerinde yaşanan gelişmeler dünyada her şeyin hızla değişmesine neden olmaktadır. İşletmeler açısından ele alındığında bu değişimler; ekonomik koşullarda, iş yapma biçimlerinde, müşteri beklentilerinde, müşteri eğilimlerinde, rakiplerin stratejilerinde vb. ortaya çıkmaktadır. İşletmelerin bu değişimlere ayak uydurabilmesi, rakipleriyle yarışabilmesi ve varlıklarını başarılı bir biçimde sürdürebilmesi için, işletmelerde karar verici konumunda olan yöneticilerin, doğru kararlar vererek doğru stratejiler belirlemeleri gerekmektedir.

Günümüzde bilişim teknolojisinde gelinen noktada çok büyük miktarda verinin kolaylıkla elde edilmesi ve kaydedilerek saklanması olanaklı hâle gelmiştir. Bununla birlikte veriler tek başlarına bir anlam ifade etmeyip belirli bir amaca yönelik olarak işlendiklerinde anlamlı bilgilere dönüşürler. Verilerin analiz edilmesinde kullanılan geleneksel yöntemler veri miktarında meydana gelen büyük artış karşısında yetersiz kalmaya başlamıştır. Veri madenciliğinin ortaya çıkışı da büyük miktarda veriyi analiz edebilme ve işleyebilme ihtiyacından kaynaklanmıştır. Veri madenciliği tek başına çözümün kendisi olmayıp çözüme ulaştıracak kararın verilmesine destek sağlayacak bilgilerin ortaya çıkarılmasında kullanılan bir araçtır.

Veri Madenciliğinin Tarihsel Gelişimi

Veri madenciliğinin tarihi bilgisayarların hayatımıza girmesiyle başlamıştır. Verilerin depolanması ihtiyacı ile birlikte, 1960’lı yıllardan itibaren teknoloji dünyası veri tabanı kavramı ile tanışmıştır. 1960’ların sonunda ise basit öğrenmeli bilgisayarlar geliştirilmiştir.

Perseptron insan beyninde yer alan sinir hücrelerinin (nöronların) ilk yapay modeline verilen isim olup algılayıcı, fark edici anlamındadır. 1957 yılında Frank Rosenblatt tarafından geliştirilen ve tekrar eden, benzerlik gösteren özelliklerin bilgisayar tarafından algılanabilmesini sağlayan bir algoritmadır. Perseptron’ların yalnızca çok basit olan kuralları öğrenebileceği, bazı basit mantıksal işlemlerde ise yetersiz kaldığı 1969’da Minsky ve Papert tarafından ortaya konulmuştur. Zaman içinde giderek büyüyen veri tabanlarının organizasyonu, düzenlenmesi ve yönetimi de zorlaşmıştır. Bu zorlukların üstesinden gelebilmek amacıyla ise veri modelleme kavramı ortaya atılmıştır.

İlk veri modelleri; Hiyerarşik Veri Modeli ve Ağ Veri Modeli olarak adlandırılan basit veri modelleridir. 1970’lerde İlişkisel Veri Tabanı Yönetim Sistemleri uygulamaları kullanılmaya başlanmış, bu konuyla ilgilenen uzmanlar basit kurallara dayanan uzman sistemler geliştirmişler ve basit anlamda makine öğrenimini sağlamışlardır. 1980’lerde veri tabanı yönetim sistemleri yaygınlaşmış ve pek çok farklı alanda uygulanır olmuştur.

Günümüzde bellek kapasitesi GigaByte ve TeraByte’tan sonra Peta, Exa ve Zetta ön ekleriyle ifade edilen boyutlara ulaşmıştır. Bunun sonucu olarak milyarlarca Byte veri fiziksel olarak çok küçük boyutlardaki donanım ögelerinde saklanabilir hâle gelmiştir.

1990’lara gelindiğinde veri miktarının sürekli katlanarak arttığı veri tabanları içinden, faydalı bilgilerin nasıl çıkarılabileceği araştırma konusu olmuştur. Bu amaçla yapılan çalışmalardan en önemlisi, 1989’da KDD (Knowledge Discovery in Database) IJCAI-89 Veri Tabanlarında Bilgi Keşfi Çalışma Grubu toplantısıdır. 1991 yılında ise KDD (IJCAI)-89’un sonuç bildirgesi sayılabilecek “Knowledge Discovery in Real Databases: A Report on the IJCAI-89 Workshop” makalesi ile Bilgi Keşfi ve Veri Madenciliği ile ilgili temel tanım ve kavramlar ortaya konmuştur. 1992 yılında veri madenciliği için ilk yazılım geliştirilmiştir. 2000’li yıllarda veri madenciliği sürekli gelişmiş ve hemen hemen tüm alanlara uygulanmaya başlanmıştır. İşletmeler, günümüzde yoğun olarak Müşteri İlişkileri Yönetimi (CRM) ve Kurumsal Kaynak Planlaması (ERP) gibi uygulamalar ve teknikler aracılığıyla veri madenciliği yapmaktadır. S:4, Tablo 1.1de Veri Madenciliği Tarihsel Süreci Tablosu incelenebilir.

Veri Madenciliğine Etki Eden Disiplinler

Bu yeni yaklaşımların temelinde istatistik, makine öğrenimi, veritabanı sistemleri önemli bir yer tutmaktadır.

İstatistik , verilerin analizi ve değerlendirilmesi konusunda geçmişten günümüze yoğun bir biçimde kullanılan bir disiplindir. 1990’lardan sonra, ilgilenilen verinin yığınlar içinden çekilip çıkarılması ve analizinin yapılarak kullanıma hazır hâle getirilmesi sürecinde istatistik, veri madenciliği ile ortak bir platformda ve sıkı bir çalışma birlikteliği içinde olmuştur.

Makine öğrenimi , insan öğrenmesinde söz konusu olan özelliklerin algoritmalar yardımıyla bilgisayarlara da uygulanabileceği ve bilgisayarların da insanlar gibi öğrenebileceği düşüncesini temel alan bir disiplindir. Bu öğrenmeler sonucunda çıkarımlarda bulunarak geçmiş veri örnekleri yardımıyla gelecekte daha iyi sonuçlar üretme konusunda veri madenciliği uygulamasına katkıda bulunurlar.

Görselleştirme ; verilerin daha kolay anlaşılmasına, analiz edilmesine ve geleceğe yönelik tahminlerde bulunulmasına önemli katkı sağlamaktadır. Veri madenciliğinde kullanılan görselleştirme teknikleri ilk zamanlarda sadece iki boyutlu serpilme ve serpilme matris çizimleri ya da üç boyutlu grafikler biçimindeydi. Ancak zaman içinde, verilerin öznitelik sayılarındaki artış klasik istatistiğin sunduğu iki veya üç boyutlu grafiklerin yetersiz kalması sonucunu da birlikte getirmiştir. Yer Konum veri analizi, sinyal işleme, görüntü analizi gibi teknikler görselleştirme amacıyla kullanılan tekniklere verilebilecek örneklerdir.

Veritabanı ; gelişigüzel veri yığınları olmayıp birbiriyle ilişkili olan ve amaca uygun biçimde düzenlenmiş, mantıksal ve fiziksel olarak tanımlanmış veriler bütünüdür. Veritabanı yönetim sistemi ise kısaca veritabanı tanımlamak, veritabanı oluşturmak, veritabanında işlem yapmak, veritabanının farklı kullanıcı yetkilerini belirlemek, veritabanının bakımını ve yedeklemesini yapmak için geliştirilmiş programlar bütünüdür. Veritabanı ve veri tabanı yönetim sisteminin birlikte oluşturduğu bütün veritabanı sistemi olarak ifade edilmektedir.

Örüntü , olaylar ve nesneler arasında düzenli ve sistematik bir biçimde tekrarlanan ilişki modellerini ifade etmek için kullanılan bir kavramdır.

Örüntü tanıma : Olaylar ve nesneler arasında daha önceden tanımlanmış, düzenli ve sistematik biçimde tekrar eden ilişkileri bir model olarak kabul eden ve bu modelin (örüntünün) benzerlerini ya da en benzerini veritabanı içinden arama ve bulmaya yönelik teknolojidir. Örüntünün konusu yazılı bir metin olabileceği gibi parmak izi, ses, yüz tanıma, kan hücrelerinin karşılaştırılması, el yazılarının belirlenmesi gibi alanlar da olabilir.

Veri Madenciliği Kavramı

İşletme politikalarının ve stratejik kararların temel ögesi veri ve veriden elde edilmiş güvenilir, güncel ve doğru bilgidir.

Veri, ham gözlemler, işlenmemiş gerçekler ya da izlenimlerdir ve harf, rakam, çeşitli sembol, işaretler yardımıyla temsil edilir.

Enformasyon, verinin bir anlam oluşturacak şekilde düzenlenmiş hâlidir.

Bilgi , verinin işlenmiş ve dönüştürülmüş halidir. Karar vermede etkili olan asıl unsur veriden ziyade bilgidir.

İhtiyaç duyulan veriye hızlı ve kolay biçimde erişebilmek amacıyla, verilerin yönetimi sorununun çözümünde veritabanı sistemleri , verileri işleyip anlamlı bilgilere dönüştürmek amacıyla yeni yöntem ve yaklaşımlar belirleme zorunluluğunun çözümü için veri madenciliği yöntemler i geliştirilmiştir. Veritabanlarında kayıtlı olan veriler madenlerden çıkarılıp işlenmeyi bekleyen değerli maddelere benzetilebilir. Bu nedenle büyük miktarda yığın veri içinden bilgiye ulaşmak amacıyla kullanılan teknikler bütünü de veri madenciliği adı altında ele alınmaktadır. Veri madenciliği çalışmaları yapmak için var olması gereken iki temel öge veri ve veritabanıdır .

Veri ambarı işletmelerde iç veri kaynakları ile dış veri kaynaklarının birleştirilmesi ve düzenlenmesi ile oluşturulmuş, üzerinde veri madenciliği işlemlerinin gerçekleştirileceği veriyi sağlayan daha geniş ve özel veritabanlarına verilen isimdir. Veri ambarı oluşturulmasına ilişkin süreç ve ilgili olduğu diğer ögeler S:8, Şekil 1.2’de incelenebilir.

Üst veri , veri ambarında yer alan veriler hakkındaki tanımlamalar olup veri ambarına ilişkin veri kataloğu olarak düşünülebilir. Veri deposu ise veri ambarının bir alt kümesi olup işletmenin yalnızca belirli bir bölümünü ya da belirli bir iş sürecini, daha özel bir fonksiyon alanını ilgilendiren parçasıdır. Veri ambarı tüm işletmeyi ilgilendirirken veri deposu tek bir konuya ya da özel bir amaca yönelik verileri içerir.

OLAP (Online Analytical Processing – Çevrimiçi Analitik İşleme) veri ambarında yer alan veriler üzerinde çok boyutlu, çok yönlü analiz ve sorgulama yapılmasını sağlayan sistemlerdir. OLAP işlemini gerçekleştirmek üzere veri ambarı ile etkileşim içinde olan OLAP sunucuları, karmaşık analitik sorguların kısa sürede gerçekleştirilmesine imkân veren çok boyutlu veri modelini kullanırlar. Çok boyutlu veri modeli örneği için S:9, Şekil:1,3 incelenebilir.

Veri madenciliği , veriden örüntülerin çıkarılması amacıyla çeşitli algoritmaların uygulanmasıdır. Elde edilen örüntü ve kurallar karar vermeye ve bu kararların sonuçlarını tahmin etmeye destek olacak biçimde kullanılabilecektir.

Veritabanlarında Bilgi Keşfi Süreci

Veritabanlarında bilgi keşfi, veriden faydalı bilginin keşfedilmesi sürecinin tamamıdır. Veri madenciliği ise bu sürecin bir adımı olup veriden örüntülerin belirlenmesi ve aktarımı için özel algoritmaların uygulanması işlemlerine karşılık gelmektedir. Veritabanlarında Bilgi Keşfi sürecinin adımları S:11, Şekil 1.4’te incelenebilir .

Bilgi Keşfi sürecinde izlenmesi gereken temel aşamalar;

  1. Amacın Tanımlanması
  2. Veriler Üzerinde Ön İşlemlerin Yapılması
  3. Modelin Kurulması ve Değerlendirilmesi
  4. Modelin Kullanılması ve Yorumlanması
  5. Modelin İzlenmesi

Sıralanan bu aşamalara bütünsel olarak bakıldığında, veri madenciliği sürecinde;

biçiminde bir uygulamanın söz konusu olduğu görülebilir.

Amacın Tanımlanması

Bu aşamada, işletmenin ya da kurumun veri madenciliğini hangi amaca yönelik olarak gerçekleştirmek istediği belirlenir. Buna ek olarak, elde edilecek sonuçların başarı düzeylerinin nasıl ölçüleceği de tanımlanmalıdır. Ayrıca, süreç sonunda yapılacak değerlendirme ve öngörülerin yanlış olması durumunda katlanılacak maliyetlere ve doğru olması durumunda elde edilecek kazanımlara ilişkin tahminlere de yer verilmelidir.

Veriler Üzerinde Ön İşlemler Yapılması

Verilerin veri madenciliği için hazırlanması anlamındadır. Ön işlemler aşamasında yeterli özenin gösterilmemesi, model kurma aşamasından ön işlemler aşamasına tekrar tekrar geri dönülmesine ve verinin yeniden düzenlenmesine neden olacaktır. Veriler üzerindeki ön işlemler genel olarak; Verilerin toplanması ve birleştirilmesi, verilerin temizlenmesi, verilerin yeniden yapılandırılması biçiminde sınıflandırılabilir. Veriler Üzerinde Yapılan Ön İşlemler S:13, Şekil1,5’de incelenebilir.

Verilerin Toplanması ve Birleştirilmesi

Öncelikle tanımlanan amaca ve probleme uygun verilerin neler olduğu ve bu verilerin hangi kaynaklarda yer aldığı araştırılır. Gerekli verilerin toplanmasında öncelikli olarak kurumun kendi veritabanı ve veri kaynaklarından yararlanılır. Bu tür veriler iç kaynaklı verilerdir . Kamuya ait kurumsal veri tabanlarından veya veri pazarlayan farklı kuruluşların veri tabanlarından da yararlanılabilir. Örneklenen veri kaynakları ise dış veri kaynaklarıdır .

Verilerin Temizlenmesi

Kayıp ya da eksik değerleri tamamlamak, aykırı değerleri belirleyerek gürültüyü ortadan kaldırmak ve verilerdeki tutarsızlıkları, uyumsuzlukları gidermek için kullanılan birçok yaklaşımı ve tekniği kapsar. Veritabanlarındaki kayıtlarda eksik olan veriler Kayıp veriler dir. Kayıp veriler çeşitli nedenlerden kaynaklanabilir; veri toplamada yanlış araçların kullanılması, veri girişinde hata yapılması ya da veri toplama aşamasında sorulara eksik cevap verilmesi bu nedenlerden bazılarıdır.

Gürültülü Veri: Veritabanlarında doğru olmayacak kadar uç değerler, aykırı değer ya da sıra dışı değer olarak tanımlanır. Bu şekildeki aykırı değerler ya da farklı sebeplerle yanlış girilmiş değerler genel olarak gürültülü veri olarak tanımlanır.

Kayıp verilerin neden olacağı olumsuzlukları ortadan kaldırmak amacıyla kullanılan yaklaşımlar:

  1. Kayıp veri içeren kaydı veri kümesinden çıkarmak,
  2. Kayıp verileri tek tek yazmak,
  3. Kayıp verilerin hepsi için aynı veriyi girmek,
  4. Kayıp veri yerine tüm verilerin ortalama değerinin girilmesi,
  5. Kayıtlarda yer alan diğer değişkenler yardımıyla kayıp verilerin tahmin edilmesidir.

Verilerdeki gürültünün temizlenmesi amacıyla kullanılan yaklaşımlar ise;

  1. Bölümleme yöntemiyle gürültünün temizlenmesi,
  2. Sınır değerleri kullanılarak gürültünün temizlenmesi,
  3. Kümeleme yöntemiyle düzeltme yapılması ve gürültünün temizlenmesi,
  4. Regresyon yöntemiyle düzeltme yapılması ve gürültünün temizlenmesidir.

Verilerin Yeniden Yapılandırılması

Veri madenciliği amacıyla kullanılan model, teknik ve algoritmalar belirli yapılardaki veriler üzerinde uygulanabilir. Eldeki verilerin kullanılacak algoritmaya uygun hâle getirilmesi, diğer bir ifadeyle yeniden yapılandırılması gerekir. Bazı algoritmalar ise yalnızca 0 ve 1’lerle temsil edilen veriler üzerinde çalışır.

  1. Verilerin normalizasyonu: Farklı değerlerdeki verilerin 0,0-1,0 gibi aralıklardaki değerlerle temsil edilmesi işlemine normalizasyon denir. Normalizasyon işlemi için kullanılabilen yöntemlerden bir kısmı; min-maks normalizasyonu, sıfır-ortalama normalizasyonu ve ondalıklı normalizasyon biçiminde sıralanabilir.
  2. Verilerin azaltılması: Bellek kapasitelerinin artmış olması ve bilgisayar sistemlerinin ucuzlaması sonucunda veri tabanlarında gerekli olsun ya da olmasın çok miktarda veri tutulmaktadır. Verilerin azaltılması amacıyla geliştirilen çeşitli yöntemler bulunmaktadır. Bu yöntemlerden bazıları; boyut sayısını azaltma, veri sıkıştırma, temel bileşenler analizi, faktör analizi biçiminde sıralanabilir
  3. Verilerin dönüştürülmesi : Analize konu olan veri kümesinin gerekli veriyi içermesi ancak verinin kullanılan algoritmaya uygun yapıda olmaması durumunda gerçekleştirilir. Verilerin dönüştürülmesi, algoritmada doğrudan kullanılacak biçimde verinin kendi içinde yeniden düzenlenmesini ifade etmektedir

Modelin Kurulması ve Değerlendirilmesi

Veri hazırlama ve model kurma aşamaları, en iyi olduğu düşünülen modele ulaşılıncaya kadar tekrarlanır.

Modelin Kullanılması ve Yorumlanması

Kurulan ve geçerliliği sınanarak uygulanmak üzere kabul edilen modelin kullanıldığı aşamadır. Probleme çözüm getirmediği düşünülüyorsa süreç yenilenmelidir.

Modelin İzlenmesi

Ne kadar doğru ve iyi bir model kurulmuş olsa da sistem zaman içinde ortaya çıkacak değişimlerden etkilenebilecektir. Bu nedenle model kullanılmaya başlandıktan sonra, sistemin ne kadar iyi çalıştığının sürekli olarak izlenmesi ve ölçülmesi bir gerekliliktir.

Veri Madenciliğinde Kullanılan Modeller

Veri madenciliği büyük hacimli verilerin işlenmesi için geliştirilmiş algoritmalar ile geleneksel veri analiz yöntemlerinin karması olan bir teknolojidir. Veri madenciliği yazılımlarının öğrenme özelliği vardır. Yazılımlar kendilerine verilen örnek veriler üzerinde inceleme yaparak kullandıkları algoritmalarla bu verilerden bazı sonuçlar ve kurallar çıkarırlar. Yazılımın veriler üzerinde yaptığı bu inceleme işlemine öğrenme adı verilir. Yazılım bu çıkarımları verilerin kalan kısmına uygulayarak ne kadar öğrendiği konusunda kendini sınar. Bu sınama sonucunda eğer gerekli görürse başlangıçta yaptığı çıkarımlarını yeniler.

Yenilenen çıkarımlar (sonuçlar, kurallar) üzerinde yapılan ayrı bir işlemle doğrulama gerçekleştirilir. Aşırı öğrenme algoritmanın çıkardığı kuralların sadece üzerinde çalıştığı veriler için geçerli olmasını, dışarıdan başka verilere uygulandığında ise geçersiz olması durumunu ifade eder. Veri madenciliğinde kullanılan modeller; Tahmin edici modeller, Tanımlayıcı modeller olmak üzere temelde iki başlık altında incelenebilir (S:19, Şekil:1.6 ).

Tahmin Edici Modeller

Eldeki verilerden hareketle bir model geliştirilmesi ve geliştirilen bu model kullanılarak önceden sonuçları bilinmeyen veri kümeleri için sonuçların tahmin edilmesini amaçlar. Tahmin edici modeller özellikle karar verme süreci açısından büyük önem taşır. Tahmin edici modellere ilişkin yazılımlardaki öğrenme, daha çok bir insanın öğrenme biçimine benzetilebilir.

Denetimli öğrenmede ilgili veriler seçilen algoritmaya uygun olarak hazırlandıktan sonra, ilk aşamada verinin bir kısmı modelin öğrenimi, diğer kısmı ise modelin geçerliliğinin test edilmesi için ayrılır. Modelin öğrenimi, öğrenim kümesi kullanılarak gerçekleştirildikten sonra, test kümesi ile modelin doğruluk derecesi belirlenir.

Denetimsiz öğrenmede , kümeleme analizinde olduğu gibi ilgili örneklerin gözlenmesi ve bu örneklerin özellikleri arasındaki benzerliklerden hareket ederek sınıfların tanımlanması amaçlanmaktadır.

Tahmin edici modeller kendi içinde regresyon modelleri ve sınıflandırma modelleri biçiminde ikiye ayrılır.

Regresyon Modelleri: Regresyon, bağımsız değişkenler ile bağımlı değişkenler arasındaki ilişkiyi en iyi tanımlayan fonksiyonu elde etmek için uygulanan istatistiksel tekniktir.

Sınıflandırma Modelleri: Sınıflama, veri sınıfı ve kavramlarını tanımlama ve ayırt etmeyi sağlayan bir model kümesini bulma sürecidir. Sınıflandırmada, veriler istatistik ve/ veya makine öğrenimi yöntemleri kullanılarak önceden belirlenen sınıflara atanır. Sınıflama modelleri, sınıflar önceden incelenen veriler aracılığıyla oluşturulduğundan, denetimli öğrenme modelleridir.

Regresyon ve sınıflandırma modellerinden en yaygın kullanılanlar;

Karar ağaçları: Sınıflandırma problemlerinde en çok kullanılan algoritmalardan biridir.

Yapay sinir ağları: Yapay sinir ağları karmaşık hesaplamaları gerçekleştiren biyolojik sinir sistemlerini model alır. Bu yöntemle oluşturulan modellerin yorumlanması diğerlerine göre daha zordur.

Genetik algoritmalar: Karmaşık eniyileme problemlerinin çözümünde kullanılan bir teknolojidir. Doğrudan bir veri madenciliği modeli değildir.

Zaman serisi analizi: Zaman değişkeni ile ilişkilendirilmiş verilerin tahmin edilmesi problemlerinde kullanılır.

k-en yakın komşu : Temel olarak algoritma sınıfları belli olan bir örnek kümesindeki gözlem değerlerini inceler. Daha sonra elde edilen bu bilgi sisteme eklenen verinin ait olduğu sınıfın tespitinde kullanılır. Sınıflandırma yapılırken veritabanındaki her bir kayıdın diğer kayıtlarla olan uzaklığı hesaplanır. Ancak, bir kayıt için diğer kayıtlardan sadece k adedi göz önüne alınır. Gözlem değerlerinin arasındaki uzaklıkların hesaplanmasında “ Öklid” uzaklık formülü kullanılır.

Bayes sınıflandırması : Elde var olan, mevcut sınıflanmış verileri kullanarak yeni bir verinin mevcut sınıflardan herhangi birine girme olasılığını hesaplayan yöntemdir.

Tanımlayıcı Modeller

Bu modeller tahmin edici modellerin aksine analiz edilen verilerin özelliklerini incelemek için kullanılan modellerdir. En yaygın kullanılan tanımlayıcı modeller; kümeleme, birliktelik kuralları, sıra örüntü analizi ve özetleme biçiminde sıralanabilir.

Kümeleme: Kümeleme, verileri birbirlerine olan benzerliklerine göre anlamlı ve/ veya kullanışlı gruplara ayırmaktır.

Birliktelik kuralları: Birliktelik kuralları veriler arasındaki güçlü birliktelik özelliklerini tanımlayan örüntüleri keşfetmek için kullanılan analiz yöntemidir.

Sıra örüntü analizi: Birliktelik kurallarına benzer bir yapıda olup aynı zamanda olayların zaman sıralarıyla ilgilenir.

Özetleme: Karakterizasyon veya genelleştirme olarak da adlandırılan özetleme, verileri basit tanımları yapılmış alt gruplar içine yerleştirme işlemidir.

Veri Madenciliğinin Diğer Veri Analizi Yaklaşımları ile Karşılaştırılması

Veri Madenciliğinin Uygulandığı Alanlar

Veri madenciliğinin yoğun ve başarılı bir biçimde kullanıldığı başlıca alanlar; pazarlama, finans (bankacılık, sigortacılık, borsa), perakendecilik, sağlık, telekomünikasyon, endüstri ve mühendislik, eğitim, tıp, biyoloji, genetik, kamu, istihbarat ve güvenlik biçiminde sıralanabilir.