Açıköğretim ders notları öğrenciler tarafından ders çalışma esnasında hazırlanmakta olup diğer ders çalışacak öğrenciler için paylaşılmaktadır. Sizlerde hazırladığınız ders notlarını paylaşmak istiyorsanız bizlere iletebilirsiniz.
Açıköğretim derslerinden Veri Madenciliği Dersi 8. Ünite Özet için hazırlanan ders çalışma dokümanına (ders özeti / sorularla öğrenelim) aşağıdan erişebilirsiniz. AÖF Ders Notları ile sınavlara çok daha etkili bir şekilde çalışabilirsiniz. Sınavlarınızda başarılar dileriz.
Veri madenciliği, veri mühendisliği ve bilgi keşfi alanlarında son zamanlarda oldukça günceldir. Temelde veri madenciliği, e-ticaret uygulamalarındaki işlem verileri ya da biyoinformatik alanında genetik ifadeler gibi farklı veri türlerinden oluşan büyük miktarda veri yığını içerisinden, anlamlı ve yararlı bilginin ortaya çıkarılması anlamına gelir. Verinin türü ne olursa olsun veri madenciliğinin temel amacı, mevcut veri yığını içerisindeki gizli veya daha önce fark edilmemiş bilginin açığa çıkarılması yani keşfedilmesidir. İlişki kuralları, sıralı örüntü madenciliği, denetimli ve denetimsiz öğrenme algoritmaları son yıllarda yaygın olarak kullanılan ve üzerinde yoğun araştırmalar yapılan veri madenciliği alanlarıdır.
Son on yılda veri madenciliği, web belgeleri de dâhil olmak üzere web nesneleri, web bağlantı yapısı, web kullanıcı işlemleri, web semantik vb. gibi birçok web veri yönetimi araştırmalarında başarılı bir şekilde uygulanmaktadır. Çeşitli web verilerinden elde edilen anlamlı ve yararlı bilgiler, web nesneleri arasındaki ilişkileri anlamamızı ve keşfetmemizi sağlamakta ve web veri yönetiminin geliştirilmesi için kullanılmaktadır. Web madenciliğinde kullanılan yöntemler sayısal zekâ olarak da bilinen ve genel olarak veritabanı, veri madenciliği, otomatik öğrenme ve bilgi çıkarsama vb. gibi geniş bir uygulama alanına sahip akıllı hesaplama yaklaşımlarına dayanmaktadır. Web madenciliği kullanıcıların aradıkları cevaba hızlı ve doğru bir şekilde ulaşabildikleri devrim niteliğinde bir süreçtir.
Veri madenciliği,
temel adımlarından oluşan bir süreçtir.
Web madenciliği web veri yönetimi kapsamında akıllı hesaplama tekniklerinden birisidir. Genel olarak web madenciliği, webdeki veri yığınları içerisinden veri madenciliği yöntemleri aracılığı ile yararlı bilgilerin ayıklanması ve sonuç çıkarılması işlemleri olarak tanımlanabilir. Web madenciliği araştırmaları özellikle veri madenciliği, bilginin keşfi ve otomatik öğrenme (machine learning) alanlarının yanı sıra veritabanı yönetimi, bilgi erişimi ve yapay zekâ vb. gibi alanlarda çalışan birçok akademisyen ve mühendisin ilgisini çekmektedir.
İnternet ortamından yararlı bilginin keşfi için, web madenciliği sürecini dört temel adımda ele alabiliriz.
Web madenciliğinde kullanılabilecek veriler genel olarak, sunucu (server), istemci (client) ve vekil (proxy) sunucu gibi farklı kaynaklardan elde edilirler. Farklı kaynaklardan elde edilecek veriler de farklı yapılara sahip olmaktadırlar. Web madenciliğinde kullanılan verileri dört başlıkta incelenebilir.
Web madenciliği, veri madenciliği ile çok güçlü bir ilişki içerisinde olmasına rağmen farklı bir alandır. Çünkü web madenciliği sürecinde çeşitli kategori ve biçimlerdeki internet verileri farklı alanlarda uygulanan analiz tekniklerinin kombinasyonu teknikler kullanılarak analiz edilirler. Web madenciliği web doküman ve servislerindeki yararlı bilgileri otomatik olarak ayıklamak ve elde etmek için veri madenciliği tekniklerini kullanır. İnternette yer alan bilgiler farklı veri türlerini barındırdıkları için web madenciliği, veri madenciliği sürecinde kullanılan web verilerinin türüne göre Web İçerik Madenciliği, Web Yapı Madenciliği ve Web Kullanım Madenciliği şeklinde sınıflandırılır.
Web İçerik Madenciliği: Web içerik madenciliği temel olarak web sayfalarında kullanıcıya sunulan içerik verilerinden yararlı bilginin ortaya çıkarılması, keşfedilmesi olarak tanımlanabilir. İçerik verileri genellikle metin şeklindeki dokümanların yanı sıra tablo, şekil, resim, grafik, ses ve videolardır. Metin şeklinde sunulan içeriğin analizi metin madenciliği olarak adlandırılır ve günümüzde en çok araştırılan web içerik madenciliği alanlarından birisidir. Resim, ses ve görüntü vb. gibi kaynaklardan yararlı bilginin çıkarılması ise multimedya madenciliği olarak ifade edilmektedir. Bu alanda da başta görüntü işleme olmak üzere birçok teknik geliştirilmektedir.
Web Yapı Madenciliği: Web yapı madenciliği, web sitesinin yapısal özetini yani kendi içerisindeki sayfalarla ve diğer sitelerle olan bağlantı yapılarını elde ederek, bu yapılardan yararlı bilginin ortaya çıkarılması olarak tanımlanabilir. Bu sayede web sayfaları sınıflandırılabilir ve farklı web siteleri arasındaki benzerlik ve ilişkiler ortaya çıkarılabilir. Böylece web sitelerinin verimlilik ve kullanışlılık değerlendirmeleri yapılabilir. Web yapı madenciliği ile internet ortamında birçok insan tarafından başvurulan ve alanında otorite olarak nitelendirilen önemli web sayfaları da belirlenebilmektedir.
Web Kullanım Madenciliği: İnternette herhangi bir kaynağa erişim sağlandığında tarayıcı veya sunucular tarafından bir takım veriler kayıt altına alınır. Bunlar sunucular tarafından depolanan kullanıcı erişim kayıtları, tarayıcı kayıtları, kullanıcı profilleri, çerezler, fare tıklamaları, sayfa kaydırmaları, sayfa içerik özellikleri vb. gibi kayıtlardır. Web kullanım madenciliği, kullanıcıdan elde edilen bu bilgiler aracılığı ile kullanıcıların internet gezinme alışkanlıklarını analiz ederek kişiye özel modeller oluşturmayı amaçlar.
Geniş bir açıdan ele alındığında web madenciliği, web içerisinde yer alan tüm bilgi ve belgelerin belirli bir amaç için taranarak sınıflandırılması işlemlerini kapsamaktadır. Son yıllarda hızla artış gösteren bir internet kullanım biçimi ise sosyal medya kullanımıdır. Sosyal ağ hizmetleri olarak da adlandırılan sosyal medya, insanların birbirleriyle daha kolay etkileşim, iletişim ve paylaşımda bulunmalarını, kısaca sosyal ilişkiler kurmalarını sağlayan internet tabanlı uygulamaları kapsayan bir platform olarak tanımlanabilir.
Günümüzde insanlar birçok nedenden dolayı sosyal medyayı kullanmaktadır. Etkin bir şekilde kullanılmakta olan sosyal medya hizmetlerinin hangi amaçlar için kullanıldığını belirleyebilmek için insanların birbirleriyle çevrim içi etkileşim nedenlerini tüm yönleriyle ele almak gerekir. Dolayısıyla günümüzde kullanılmakta olan sosyal medya hizmetlerini temel olarak izleyen biçimde sınıflandırmak mümkündür.
Dolayısıyla bu bölümde sosyal medya hizmetleri içerisinde en çok kullanıcı kitlesine sahip olan uygulamalardan Twitter ve Facebook kullanıcı verilerine nasıl erişilebileceği ve R programı ile temel bazı analizlerinin nasıl gerçekleştirileceğine dair uygulamalara yer verilmiştir. Sosyal medya uygulamalarının bireyler tarafından bu kadar ilgi görmesi, bu konuda hizmet vermekte olan firma sayısını da arttırmaktadır. Her geçen gün sayısı hızlı bir biçimde artmakla beraber hâlen 50’nin üzerinde sosyal medya uygulaması varlığını sürdürmektedir. En çok bilinen ve kullanılan bu sosyal medya uygulamalarından Facebook, WhatsApp, Facebook Messenger, Google Plus, QQ, WeChat, Qzone, Tumblr, Instagram, Twitter, Baidu, Tieba, Skype ve Viber ilk akla gelenler olarak sayılabilir.
Veri madenciliği, veri mühendisliği ve bilgi keşfi alanlarında son zamanlarda oldukça günceldir. Temelde veri madenciliği, e-ticaret uygulamalarındaki işlem verileri ya da biyoinformatik alanında genetik ifadeler gibi farklı veri türlerinden oluşan büyük miktarda veri yığını içerisinden, anlamlı ve yararlı bilginin ortaya çıkarılması anlamına gelir. Verinin türü ne olursa olsun veri madenciliğinin temel amacı, mevcut veri yığını içerisindeki gizli veya daha önce fark edilmemiş bilginin açığa çıkarılması yani keşfedilmesidir. İlişki kuralları, sıralı örüntü madenciliği, denetimli ve denetimsiz öğrenme algoritmaları son yıllarda yaygın olarak kullanılan ve üzerinde yoğun araştırmalar yapılan veri madenciliği alanlarıdır.
Son on yılda veri madenciliği, web belgeleri de dâhil olmak üzere web nesneleri, web bağlantı yapısı, web kullanıcı işlemleri, web semantik vb. gibi birçok web veri yönetimi araştırmalarında başarılı bir şekilde uygulanmaktadır. Çeşitli web verilerinden elde edilen anlamlı ve yararlı bilgiler, web nesneleri arasındaki ilişkileri anlamamızı ve keşfetmemizi sağlamakta ve web veri yönetiminin geliştirilmesi için kullanılmaktadır. Web madenciliğinde kullanılan yöntemler sayısal zekâ olarak da bilinen ve genel olarak veritabanı, veri madenciliği, otomatik öğrenme ve bilgi çıkarsama vb. gibi geniş bir uygulama alanına sahip akıllı hesaplama yaklaşımlarına dayanmaktadır. Web madenciliği kullanıcıların aradıkları cevaba hızlı ve doğru bir şekilde ulaşabildikleri devrim niteliğinde bir süreçtir.
Veri madenciliği,
temel adımlarından oluşan bir süreçtir.
Web madenciliği web veri yönetimi kapsamında akıllı hesaplama tekniklerinden birisidir. Genel olarak web madenciliği, webdeki veri yığınları içerisinden veri madenciliği yöntemleri aracılığı ile yararlı bilgilerin ayıklanması ve sonuç çıkarılması işlemleri olarak tanımlanabilir. Web madenciliği araştırmaları özellikle veri madenciliği, bilginin keşfi ve otomatik öğrenme (machine learning) alanlarının yanı sıra veritabanı yönetimi, bilgi erişimi ve yapay zekâ vb. gibi alanlarda çalışan birçok akademisyen ve mühendisin ilgisini çekmektedir.
İnternet ortamından yararlı bilginin keşfi için, web madenciliği sürecini dört temel adımda ele alabiliriz.
Web madenciliğinde kullanılabilecek veriler genel olarak, sunucu (server), istemci (client) ve vekil (proxy) sunucu gibi farklı kaynaklardan elde edilirler. Farklı kaynaklardan elde edilecek veriler de farklı yapılara sahip olmaktadırlar. Web madenciliğinde kullanılan verileri dört başlıkta incelenebilir.
Web madenciliği, veri madenciliği ile çok güçlü bir ilişki içerisinde olmasına rağmen farklı bir alandır. Çünkü web madenciliği sürecinde çeşitli kategori ve biçimlerdeki internet verileri farklı alanlarda uygulanan analiz tekniklerinin kombinasyonu teknikler kullanılarak analiz edilirler. Web madenciliği web doküman ve servislerindeki yararlı bilgileri otomatik olarak ayıklamak ve elde etmek için veri madenciliği tekniklerini kullanır. İnternette yer alan bilgiler farklı veri türlerini barındırdıkları için web madenciliği, veri madenciliği sürecinde kullanılan web verilerinin türüne göre Web İçerik Madenciliği, Web Yapı Madenciliği ve Web Kullanım Madenciliği şeklinde sınıflandırılır.
Web İçerik Madenciliği: Web içerik madenciliği temel olarak web sayfalarında kullanıcıya sunulan içerik verilerinden yararlı bilginin ortaya çıkarılması, keşfedilmesi olarak tanımlanabilir. İçerik verileri genellikle metin şeklindeki dokümanların yanı sıra tablo, şekil, resim, grafik, ses ve videolardır. Metin şeklinde sunulan içeriğin analizi metin madenciliği olarak adlandırılır ve günümüzde en çok araştırılan web içerik madenciliği alanlarından birisidir. Resim, ses ve görüntü vb. gibi kaynaklardan yararlı bilginin çıkarılması ise multimedya madenciliği olarak ifade edilmektedir. Bu alanda da başta görüntü işleme olmak üzere birçok teknik geliştirilmektedir.
Web Yapı Madenciliği: Web yapı madenciliği, web sitesinin yapısal özetini yani kendi içerisindeki sayfalarla ve diğer sitelerle olan bağlantı yapılarını elde ederek, bu yapılardan yararlı bilginin ortaya çıkarılması olarak tanımlanabilir. Bu sayede web sayfaları sınıflandırılabilir ve farklı web siteleri arasındaki benzerlik ve ilişkiler ortaya çıkarılabilir. Böylece web sitelerinin verimlilik ve kullanışlılık değerlendirmeleri yapılabilir. Web yapı madenciliği ile internet ortamında birçok insan tarafından başvurulan ve alanında otorite olarak nitelendirilen önemli web sayfaları da belirlenebilmektedir.
Web Kullanım Madenciliği: İnternette herhangi bir kaynağa erişim sağlandığında tarayıcı veya sunucular tarafından bir takım veriler kayıt altına alınır. Bunlar sunucular tarafından depolanan kullanıcı erişim kayıtları, tarayıcı kayıtları, kullanıcı profilleri, çerezler, fare tıklamaları, sayfa kaydırmaları, sayfa içerik özellikleri vb. gibi kayıtlardır. Web kullanım madenciliği, kullanıcıdan elde edilen bu bilgiler aracılığı ile kullanıcıların internet gezinme alışkanlıklarını analiz ederek kişiye özel modeller oluşturmayı amaçlar.
Geniş bir açıdan ele alındığında web madenciliği, web içerisinde yer alan tüm bilgi ve belgelerin belirli bir amaç için taranarak sınıflandırılması işlemlerini kapsamaktadır. Son yıllarda hızla artış gösteren bir internet kullanım biçimi ise sosyal medya kullanımıdır. Sosyal ağ hizmetleri olarak da adlandırılan sosyal medya, insanların birbirleriyle daha kolay etkileşim, iletişim ve paylaşımda bulunmalarını, kısaca sosyal ilişkiler kurmalarını sağlayan internet tabanlı uygulamaları kapsayan bir platform olarak tanımlanabilir.
Günümüzde insanlar birçok nedenden dolayı sosyal medyayı kullanmaktadır. Etkin bir şekilde kullanılmakta olan sosyal medya hizmetlerinin hangi amaçlar için kullanıldığını belirleyebilmek için insanların birbirleriyle çevrim içi etkileşim nedenlerini tüm yönleriyle ele almak gerekir. Dolayısıyla günümüzde kullanılmakta olan sosyal medya hizmetlerini temel olarak izleyen biçimde sınıflandırmak mümkündür.
Dolayısıyla bu bölümde sosyal medya hizmetleri içerisinde en çok kullanıcı kitlesine sahip olan uygulamalardan Twitter ve Facebook kullanıcı verilerine nasıl erişilebileceği ve R programı ile temel bazı analizlerinin nasıl gerçekleştirileceğine dair uygulamalara yer verilmiştir. Sosyal medya uygulamalarının bireyler tarafından bu kadar ilgi görmesi, bu konuda hizmet vermekte olan firma sayısını da arttırmaktadır. Her geçen gün sayısı hızlı bir biçimde artmakla beraber hâlen 50’nin üzerinde sosyal medya uygulaması varlığını sürdürmektedir. En çok bilinen ve kullanılan bu sosyal medya uygulamalarından Facebook, WhatsApp, Facebook Messenger, Google Plus, QQ, WeChat, Qzone, Tumblr, Instagram, Twitter, Baidu, Tieba, Skype ve Viber ilk akla gelenler olarak sayılabilir.