Veri Madenciliği Nedir?

Veri madenciliği hayatımızın içindeki bir kavramdır aslında.Elinizde patates,biber,soğan,fasülye,patlıcan,yağ,su,salça..vb sebzeler veya maddeler var fakat bunlardan türlü yemeğini yapamıyorsanız bu ürünlerin hiçbir anlamı yoktur.Zamanla dolabınızda çürümeye doğru gider.İşte veri madenciliğide böyledir.Sizin devasa bir veri ambarınız veya verileri topladığınız bir alan vardır.Eğer siz bu verileri doğru şekilde kullanıp bunlardan yapılacak bir ürün çıkartamıyorsanız ,veri ambarınız aslında çokta işe yaramıyordur .

 

DataMining

 

Tabi şirketler sadece veri madenciliği için veri ambarı oluşturmazlar.Bazen sadece Olap küplerini oluşturmak,tarihsel derinliği olan verilerden raporlar almak..vb şirketler için yeterli olabilir.Eğer böyle bir şirket varsa vede pazarda lider olmayı düşünüyorsa ,veri madenciliğini tekrar düşünmesi gerekmektedir J

Bu yazımda veri madenciliği ile olap küplerinin karşılaştırmasını ve veri madenciliği çeşitlerinden bahsedeceğim.Tabi verinin  “zeki veri”’ye ulaşma yolundan da biraz bahsedeceğim.

 

Veri madenciliği için ; veriden bilgiye giden süreç olarak tanımlayabiliriz.Tabi bu veri nasıl bir veri olmalı sorusuna cevap olarak ;

 

1-Şirketin ihtiyacına göre tasarlanmış olması gerekmektedir.Siz eğer gelecek sene ne kadar araba satacağınızı görmek istiyorsanız , veri ambarınızda ki verilerin araba ve satış istatistikleri hakkında bilgi toplayacak türden veriler olması gerekmektedir.Gereksiz veri aslında sizin için bir yüktür.

 

2-Temiz ve kaliteli  veri olmalıdır.Düşününki  araba satışınız için cinsiyete göre kampanya düzenleyeceksiniz.Ve geleceği tahminlemek için analiz yapıyorsunuz.Burda  satış sisteminizdeki raporlarda E/K olarak var olan bir veri , müşteri sisteminizde Erkek/Kadın olarak geçiyor.Burdaki verilerin bütünlük içerisinde olduğunda söz edilemez.Ayrıca kullanıcılardan kaynaklanan  E/K olarak girilecek alana başka veriler veya veri tipleri gelmesi halinde bu verilerin de temizlenmesi gerekmektedir.

 

3-Tarihsel derinliği olmalıdır.Veri ambarı zaten bu yapıda kurulur.Ama önemli bir olay olduğu için belirtmekte fayda var.Eğer siz gelecek 3 seneyi tahmin etmek istiyorsanız geçmiş 1 yıla bakarak bunu tahmin edemezsiniz.Örneğin önümüzdeki sene barajların doluluk oranları ne olacak diye sorduğumuzda bu sorumuza geçmiş 10 seneye bakarak çok daha net cevap verebiliriz.Nitekim geçmiş 10 senede belirleyeceğiniz zaman dilimleri veya aylarda ne kadar yağış-kuraklık-sıcaklık-nem..vb olmuş istatistiklerini görmeniz gerekecektir.

 

Newdata

 

 

 

Peki bunların hepsi oldu.Gerçektende kaliteli ,işimize yarar ve tarihsel derinliği olan verilerimiz var.Geleceği tahminlemek artık çok mu kolay ? Kesinlikle hayır .Şirketler kesin tahminlemede bulunamazlar çünkü ortada birçok faktör vardır.Zaten bu faktörlerin hepsini düşünüp ona göre sonuç üreten araçlar gözde mining toollarıdır J Siz herşeyi düşündünüz ve gelecek sene bu kadar doluluk oranına sahip olacağız dediniz.Eğer o sene yağmur yağmadıysa üzgünüm, veriler size yardımcı olamayacaktır.

 

Günümüzde müşteriye ulaşmak için birçok yol vardır.Bunların hepsinden bahsetmek ve açıklamak satış birimindeki arkadaşların işi fakat benim ilgimi çeken konu ,günümüzde hızla artan text mining ,web mining uygulamaları.Şirketlerin artık sosyal medya için tasarlanmış bir veri ambarları ve bu pazardaki insanların davranışlarını takip eden sistemleri var.Siz sosyal medyada birşeyi beğeniyor veya tavsiye ediyorsanız o ürünlerin kataloğu sizin mail adresinize geliyordur.Tabi bu sadece çok küçük bir örnek.Sizin paylaştığınız veya yorum yaptığınız olaylara göre sizi belli bir kitleye koyan ve o kitlenin davranışlarını inceleyen yapılar çoktan kuruldu bile J

 

Veri madenciliği ile neler yapılabilir ,neler yapılacak  olayı çok kapsamlı bir konu olduğu için burda bırakalım.Şimdi veri madenciliği ile olap küplerimizden aldığımız raporlar arasında ne gibi farklar var ona bakalım.

 

dm2

Veri madenciliği ile Olap raporlarının farklarından bahsetmeye çalıştık şimdide veri madenciliğini biraz daha genişletelim.

Veri madenciliğinde kullanan birçok algoritma vardır.Üniversitelerde genellikle bu algoritmalar hakkında bilgi veriliyor fakat iş hayatında algoritmadan ziyada bu algoritmayı kullanan toollar tercih ediliyor.Kendi toolunu yazan ve ona göre mining çalışması yapan şirket sayısı malesef çok az.Bende bu algoritmaları başka bir yazıya bırakıyorum.Şimdi genel olarak veri madenciliğinde kullanılan tekniklerden bahsedeceğim;

 

1- Classification:

 

En popüler veri madenciliği çeşitlerinden birisidir.Temel olarak yaptığı şey yeni bir nesnenin niteliklerini inceleme ve bu nesneyi önceden tanımlanmış bir sınıfa atamaktadır. Burada önemli olan ,bir sınıfın özelliklerinin önceden net bir şekilde belirtilmiş olması gerektiğidir. Bir malın özellikleriyle müşteri özelliklerini eşleştirebiliriz.Böylece bir müşteri için ideal ürün veya bir ürün için ideal müşteri profili çıkarılabilir.

dataprocess

 

“Genç kadınlar küçük araba satın alır, yaşlı, zengin erkekler büyük, lüks araba satın alır.” Sınıflama tekniğine örnek olarak verebiliriz

 

2-Clustering

 

Belli bir grubun kümelenmesi şeklinde  düşünebiliriz.Belli bir yapı içindeki geçen terimlere-verilere-özelliklere..vb göre gruplar oluşur.Bu gruplar da en çok geçen verilerden yararlanılarak bir benzerlik ölçütü geliştirilir ve buna göre demetleme yapılır.Örneğin genç,orta ve yaşlı erkeklerin aldığı kontör  miktarı ayrı ayrı cluster oluşturmaktadır.

 

clustering

 

 

Bir cluster algoritması sayısız döngü kullanıp model yakınsayınca durarak, modeli oluşturur.Yani oluşan segmentlerin sınırları stabil hale gelir. Mevcut halde bir çok clustering algoritması ve yapısı vardır.Örneğin Hierarchical clustering, Partitional clustering, Spectral clustering..vb Bunlar kendi içinlerindek-means,fuzzy-c-means ,QT algoritması..vb algoritmaları kullanır.Bunları ilerleyen günlerde belki açıklayabiliriz ama şuan için böyle çeşitlerinin olduğu bilgisi yeterli olacaktır.

 

3-Association

 

Popüler veri madenciliği görevlerinden biridir.Bir nesnenin varlığı ile diğer bir nesnenin varlığıarasında tahmin yürütülerek ilişki kurulur.

 

dm3

 

Örneğin bir markette,çocuk bezi alan birisinin hemen hemen herzaman süt aldığı testpit edildikten sonra  market sahibi çocuk bezi ve süt raflarının arasındaki mesafeyi kısaltabilir.Böylece müşteriye unutulan birşeyin hatırlatılması dolayısıyla kazanç sağlanmışolur.Bunun örneklerini günlük hayatımızda bir hayli görüyoruz.

 

4-Regsession

 

Amaç bir ya da daha çok değişkenin başka değişkenler cinsinden tahmin edilmesini olanaklı kılan ilişkileri bulmaktır.Örneğin bilgisayar mühendisi olan 40 yaşını aşmamış evi ve arabası olan yakışıklı erkeklerJ bir regsessiondur.

 

 dm4

 

 

5-Forecasting

 

Adından da anlaşılacağı gibi bizlere tahminler sunan veri ambarı tekniğidir.Örneğin 5 sene sonra barajlardaki doluluk oranları ne olacak ? gençler en çok hangi meslekleri seçecek? X şirketinin 2013 kar marjı ne olacak? Bu tip sorulara cevap bulan bir yapıdır.Burada ki en büyük yardımcımız zaman ve datanın geçmiş yıllarda zamanın içindeki dağılımıdır.

 

dm5

About This Author

Genç yaşlarda programlama ile tanıştı ve Visual Basic ile başladığı programlama macerasına şuanda PHP, SQL, Javascript, AJAX, CSS, XHTML teknolojileri ile devam etmektedir. Ayrıca ERP ve E-Ticaret Proje Geliştiricisidir.

Post A Reply