Veri Madenciliği ile ‘Zeki Veri’ye Ulaşın

1Bugün belirli bir sektörle ilgili üst düzey bilgi edinmek için, İnternette arama motorlarını kullanarak yaptığınız araştırmalar, çoğu zaman sizi ulaşmak istediğiniz sonuca götürmekte yetersiz kalır. Bilgi ve teknoloji dünyasının geldiği aşamada, eskiden İnternet oldukça faydalı bir kaynak iken, büyüyen ve büyüdükçe gelişmek zorunda kalan her şey gibi onun da özelleşmesi ve hazinesindeki verileri her sektöre uygun birer bilgi deposuna dönüştürmesi gerekiyor.

İnternet yaygınlaştıkça ve her geçen gün insanların kullanımı için basitleştikçe, teknoloji geliştiren ekipler ve kurumlar için İnternette bilgiye erişmek daha zor hale geliyor. Son yıllarda bu handikap için İnternette başı boş dolaşan her ‘veri’yi yakalayıp onu faydalı birer ‘bilgi’ye dönüştüren bir teknik üzerinde çalışılıyor: “Data Mining (Veri Madenciliği)”

Nedir Bu Veri Madenciliği?

Son yıllarda somut veri sayısı ve türündeki hızlı patlama ve veri tabanı teknolojilerindeki gelişmeler, bilgi depolarında çok fazla bilginin depolanmasına neden oldu ve bu karmaşık bilgiler de ister istemez bir çözümleme aşaması gerektirdi. Yani Veri Madenciliği bu sürecin, doğal bir sonucuydu.
2

‘Veri Madenciliği’ en basit tanımıyla sayılar, metinler, sesler ve görüntüleri analiz edip, ortaya çıkan karmaşık sonuçları yorumlama ve bunları sistematik bir hale getirip, gelecek için öngörülerde bulunma süreci olarak kabul ediliyor.

Ancak en anlaşılabilir hali ile Veri Madenciliği tam olarak şu konuyu ele alır:

Diyelim ki ilaç firması sahibisiniz ve elinizde de eşit miktarda parasetamol, propifenazon ve kafein var. Ancak siz ağrı kesici üretmek için, bu maddeleri hangi oranda bir araya getireceğinizi bilmiyorsunuz. O halde elinizdekiler tam anlamıyla çöptür ve ilaç firmanızın olması hiçbir işe yaramaz.

Peki, bu sektörde kendinize yer bulup işinizi nasıl yapacaksınız?

Bilgilerinizi Veri Ambarınızda Depolayın!

Bundan 20 yıl öncesine kıyasla veri kayıtları yüzde 10 milyon arttı. Uydu ve uzaktan algılama sistemleri, gen teknolojisi 20 sene öncesinin bilgi birikimiyle hayal edilemeyecek boyutta gelişti.

Marketler, holdingler, bankalar büyümeye devam ediyor. Her türden bilgisayarlar zaman geçtikçe ucuzluyor ve oldukça kaliteli cihazlar erişilebilir hale geliyor. E-ticaret’in piyasadaki etkinliğinin artmasıyla da birlikte rekabet gücü daha çok önem kazanıyor ve asgari maliyetle azami kalitede müşteri hizmeti katbekat artıyor.

320 senelik bir süreçte bile bu kadar büyük bir değişim, bilim adamları için hipotezler oluşturma,  karar verme, bilimsel hesaplamalar ve modeller oluşturma konusunda eski geleneksel teknikleri yetersiz kıldı. Artık hem ticarette hem de bilimde ham bilginin daha sonra kullanılmak için depolanacağı bir “Veri Ambarı”na ihtiyaç duyuluyor.

Yani eğer bir ‘Veri Ambar’ınız varsa, ilaçlarınızın doğru tarifleri buradaysa ve bu bilgi deposu sürekli yeni deneyler ve çalışmalar ile güncelleniyorsa, o zaman ilaç firmasına sahip olmanız bir anlam ifade eder. Veri Ambarınız, firmanızdır; veri ambarınız laboratuvarınızdır.

Bünyesinde analizler, sorgular, raporlar, karar destek sistemleri veya istatistikî hesapları barındıran bir veri ambarının en önemli özelliği kullanıcılara farklı detay düzeyleri sunabilmesi. Ayrıntılı bir bilgiyi edinirken, hangi derinlik aşamasında araştırma yapacağınızı algılayan ve ona göre bir hizmet sunan bu bilgi depoları, birbiriyle bağlantılı görünmeyen bütün bilgilerin bütünleşmesini de sağlıyor.

Yani 2 yıl önce kaydettiğiniz unutulmuş bir veriyi, bugün eklediğiniz bir başka raporla güncelleyebiliyor ve daha verimli hale getirebiliyorsunuz. Veri madenciliğinin kullanışlı olmasının esas sebebi de bu.

Bu sistem, sağlık sektöründen bilişim sistemlerine, pazarlamadan üretime, geleceğe yönelik tahminler yapmada, sonuç analizinde, işletmelerin yönetim stratejilerini belirlemede ve daha birçok alanda kullanılıyor. Yüksek bir yatırım maliyetine sahip olsa da, şu an büyük küçük çok fazla sayıda firma bu maliyetin karşılığını fazlasıyla aldıkları veri tabanı sistemleriyle donatılmış durumda.

Doğru Bilgiyi Depolayın!

4

Firmanız için depoladığınız her bir verinin uzun vadede sizin için yararlı olması gerekir. Peki, yararlı veri hangi özelliklere sahip olmalı?

Depoladığınız veri firma stratejinizle paralel olmalı. Eğer sahip olduğunuz ilaç firması yeni bir ilacı piyasa sürdükten sonra geri dönüşlerin nasıl olacağını merak ediyorsa, veri ambarınız bu ilacın satış istatistikleri hakkında bilgi toplayabilecek yoğunlukta olmalıdır. İhtiyaç duymayacağınız veri sadece gereksiz yüktür.

Veriler sade ve temiz olmalı. Eğer satışını yaptığınız ilaçların daha çok hangi yaş aralığındaki insanlar tarafından kullanıldığını raporluyorsanız ve raporunuzdaki yaş bölümü veri ambarınızdakinden farklı aralıklarla oluşturulmuşsa ya da bazı raporlar yanlış doldurulmuşsa, ambarınıza işleyeceğiniz veriler hiçbir işinize yaramaz. Ambarda bütünlük sağlamak için her aşamada sistematik olunmalı.

Geçmişe bakarak geleceği tahmin edebilmelisiniz. Eğer gelecek sene satışlarınızın artıp artmayacağını öğrenmek istiyorsanız, kayıtlarınız ne kadar eskiye dayanıyorsa o kadar kuvvetli tahminler üretirsiniz. Geçmiş 3 yıla bakmaktansa elbette ki önceki 10 seneye bakmak daha net cevap almanızı sağlar. Örneğin her yıl kış aylarında soğuk algınlığı ilaçlarının satış istatistiklerine ulaşıp 10 seneyi de ayrı ayrı inceleyerek daha kapsamlı bir öngörüde bulunabilirsiniz.

Tüm bu kaliteli, uzun vadeli ve stratejinize uygun verileri depoladığınızı varsayalım. Ürettiğiniz veri artık ‘zeki veri’ olarak tanımlanır. İnternette başıboş dolaşan her bilgiden çok daha değerlidir. Ama yine de geleceği tahmin etmek o kadar da kolay değildir. Çünkü firmaların geleceklerini etkileyen birbirinden oldukça farklı birçok faktör vardır.

5

Veri ambarınıza, müşterilerin gizli kalmış satın alma eğilimlerini tespit etmek, satışların analizini yaparak yeni trendleri öğrenmek, sırayla gerçekleşen olaylar arasında bir ilişkinin kurulabilmesi ve müşterilerin ihtiyaçlarına daha çabuk cevap vermek için başvurursunuz.

Ambarınıza başvurduğunuz anda veri madenciliği süreci başlar. Şimdi veri madenciliğinde kullanılan tekniklere biraz bakalım:

Classification (Sınıflandırma):

6

Bu teknik en çok kullanılan veri madenciliği yöntemidir. Yeni bir nesneyi inceler, özelliklerini tanımlar ve daha önceden tanımlanmış bir sınıfa atar. Önceden tanımlanmış bu sınıfın nitelikleri net bir şekilde belirlendiyse, herhangi bir müşteri için en uygun ürün profili oluşturulabilir.

Eczanelerde satılan kozmetik ürünlerin daha çok kadın müşteriler tarafından satın alınması sınıflandırma yaparak ürün profili oluşturmaya örnek olarak verilebilir.

Clustering (Kümeleme)

Verilerin kendi aralarındaki benzerlikler göz önüne alınarak gruplandırılması işlemidir. Farklı özelliklerdeki ürünlerden oluşan karmaşık bir topluluğun bazı statülere göre kümelenmesi şeklinde düşünebiliriz. Belli bir yapı içindeki geçen terimlere ya da özelliklere göre gruplar oluşturulur. Kümenin elemanları arasında bir benzerlik ölçütü vardır ve denetlemeler buna göre yapılır. Örneğin genç ve orta yaşlı kadınların aldıkları doğum kontrol hapı miktarı ayrı ayrı kümeler oluşturur.

Association (Birliktelik Kuralı)

7Bir nesnenin benzerlik ya da farklılık gözetmeksizin diğer bir nesne ile arasındaki bağlantının tespit edilmesi ve tahmin yürütülmesi sürecidir.

Örneğin ABD’de uzun yıllar birçok markette çocuk bezleri ve biralar yan yana satıldı. Çocuk bezi almak için markete gelen birçok babanın kendisine ödül olsun diye birkaç şişe bira da aldığı fark edilince, market sahipleri birbirinden oldukça alakasız bu ürünleri aynı rafta satmaya başladılar. Dolayısıyla satışlar daha da arttı.

Forecasting (Öngörü)

Sürece ve bilginin geçmiş yıllar içindeki dağılımına bakarak, zaman dilimleri içinde tahminler yapan ve veriler ne kadar geniş zaman aralığına yayılmışsa o kadar kuvvetli tahminler üreten veri madenciliği tekniğidir.

“Örneğin önümüzdeki yıl akıllı telefon satışları ne kadar olacak?” ya da “Akıllı telefonlardaki gelişmiş GPS sistemleri nedeniyle önümüzdeki 5 sene içinde otomobiller için üretilen navigasyon cihazı satışları ne kadar azalacak?” gibi sorular yanıt verir.

Amaç müşteri profili oluşturmak olduğunda, günümüzdeki her sektör için daha bunun gibi birçok yoldan bahsedebiliriz. Ancak her atılımın sosyal medyaya yaslandığı bu devirde en çok dikkat çeken ‘text mining’, ‘web mining’ uygulamaları.

8

Artık hemen hemen tüm firmaların sosyal medyaya uygun tasarlanmış  veri ambarları ve bu alanlarda insanların davranışlarını takip eden sistemleri var. Sizin sosyal medya sitelerinde beğendiğiniz ürünleri işleyen ve gezindiğiniz web sitelerinde özellikle size bu ürünlerin reklamlarını gösteren uygulamalar var. Elbette bu sadece çok küçük bir örnek ancak sosyal medyada ve kullandığınız İnternet sitelerinde yaptığınız aktivitelere göre sizi belli bir sınıfa koyan ve tüm kitlelerin davranışlarını inceleyen yapılar çoktan kuruldu bile.

Son olarak,

Tüm ayrıntılarıyla veri madenciliğini açıklamak elbette mümkün değildi ama geleceğe yön verecek bu yapılanmayı zihninizde canlandırabilmek adına bazı temel bilgileri sizin için derledim.

Veri madenciliği günümüzde birçok firmanın kullandığı ve sürekli gelişerek güncellenmesi gerektiği için her zaman gündemde kalacak bir sistemler bütünü. Her geçen gün kullanıcı sayısı artan bu sistem, kendi içinde çok detaylı teknikleri ve depo alanları barındırıyor. Diğer bir taraftan da hızla artan veri birikimini yönetecek ve gelecek için öngörülen bilgi çöplüğünü de temizleyecek tek yapı diyebiliriz.

Like

Cemre Yavuz

Cumhuriyet Gazetesi - Editör / İTÜ - Matematik Müh. / Huzur isyandadır. www.cemreyavuz.com

You may also like...

Bir Cevap Yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir