İNAVASYON VE ENFORMASYON - 1
Büyük
Veri
Büyük
veri en basit anlamıyla, bilgisayarların işleyemeyeceği kadar büyük veri
demektir.
Bu
yüzden büyük verinin boyutu sürekli olarak artmaktadır.
Yani
bir bilgisayar tarlasının işleyebileceği miktar, işlemcilerde, yazılım
dünyasında, bağlantı hızlarında v.b. olan teknolojik yeniliklerle sürekli
arttırılmakta bu yüzden de işlenebilecek azami veri tanımı sürekli
artmaktadır.
Büyük
veri için temel 3 tanım yapmak mümkündür:
İşlenecek verinin boyutu (şayet donanım limitlerinin
üzerinde bir boyuttan bahsediyorsak büyük veridir diyebiliriz).
İşlenecek verinin yapısı
İşlenecek veri üzerinden çıkarılmak istenen sonucun
karmaşıklığı
Büyük
veri kavramı literatürde sadece işleme kapasitesi olarak kullanılmaz.
Aynı
zamanda verinin işlenmeye uygunluğunu da ifade eder.
Örneğin
gazete haberlerini işlemek istiyor olalım.
Bu
haberlerin sayısı, yapacağımız işleme için önemli bir parametredir ve işleyebileceğimizin
üzerinde gazete haberi varsa, bu haber kaynağını büyük veri olarak
tanımlayabiliriz.
Ancak
diyelim ki işleyebileceğimiz verinin yarısı kadar olup (yani kapasitemiz
dahilinde olup) ancak karmaşıklığı veya düzensizliği yüzünden işleyemeyeceğimiz
bir veri kaynağı ise, bu durumda da bu veri kaynağını büyük veri olarak
adlandırabiliriz.
Yani
kritik nokta, her zaman için bilgisayarların erişebileceği işlem kapasitesinin
çok üzerindeki veri kaynaklarıdır.
Diğer
bir durum ise şu şekilde olabilir.
Mesela
facebook üzerindeki yazılmış yazıları işlemek istiyoruz.
Diyelim
ki Türkiye ile ilgili olanlarını bulacağız ve bunun için basit bir çözüm olarak
elimizdeki bir kelime listesinde olan ve bu listedeki kelimelerin geçtiği
facebook mesajlarını ayırıyoruz.
Bu
problem için işleyebileceğimiz kapasitenin üstüne büyük veri diyebiliriz ancak
problemi biraz değiştirip aynı veri üzerinde mesela arkadaşlık ilişkisini takip
etmek istersek bu problem için işleyebileceğimiz kapasite çok daha az
olacaktır.
Dolayısıyla
büyük veri tanımında üçüncü boyut ulaşılmak istenen amaçtır.
Büyük
veri için ayrıca bir battaniye terimdir demek yerinde olur.
Battaniye
terimler genelde birbiri ile ilgili bir grup alt kavramı ifade etmek için
kullanılır.
Yani
büyük veri çalışmaları aslında bir kaç alt gruptan oluşmaktadır.
Verinin saklanması problemi
Verinin saklanması için kullanılacak donanım
Veriyi saklayacak veri tabanı çözümlerinin
yetersizliği
Verinin işlenmesi problemi
İşleme sırasındaki hafıza problemleri
İşleme sırasındaki süre problemleri (sürekli akan
gerçek zamanlı uygulamalardaki sürenin kritik rolü)
Verinin yapısallaştırılması problemleri (örneğin bir
arama motorundaki indeksleme problemi)
Yukarıdakiler
ışığında, büyük veri kavramı 3 farklı boyutta incelenebilir
(3
boyut da İngilizce V harfi ile başladığı için literatürde bu yaklaşıma 3V ismi
de verilmektedir):
Volume (hacim): Verinin kapladığı alan
Velocity (hız): Verinin değişim veya birikme hızı
Variety (çeşitlilik): Verinin geldiği kaynakların çeşitliliği
(email,
facebook, videolar, resimler, ses kayıtları v.s.).
Ayrıca yukarıdaki boyutlara iki ilave boyutun
eklenmesi de mümkündür
Variability (değişkenlik):
Verideki değişimdir.
Örneğin, sosyal ağlarda trend olan bir konu kıs süre
sonra değişebilmektedir.
Complexity ( Karmaşıklık) :
Verinin işlenmesindeki karmaşıklıktır.
Örneğin twitter kullanıcılarının facebook
arkadaşlarının takibi ile youtube takipçilerinin takibi arasında işlem
açısından karmaşıklık farkı vardır.
Yukarıdaki
bu 5 parametrenin neticesinde yine bir V harfi olan Value elde edilmeye
çalışılmaktadır.
Büyük
Verinin kullanım alanları:
Sistemlerin analizinde, hataların ve problemlerin
tespit edilmesi ve çözüm geliştirilmesinde milyarlarca dolarlık kazanç
sağlamıştır.
Çalışan sistemlerin gerçek zamanda optimizasyon
problemlerinin çözümünde ekonomik katkı sağlamaktadır.
(örneğin hareket halindeki araçlar için en iyi yolun
hesaplanması).
Depo takibi veya karlılık arttırmak için yapılan
piyasa araştırmaları (stok ve ürün fiyatlarının takip edilmesi gibi) ile
işletmelere ekonomik değer katmaktadır.
Kampanya oluşturma gibi müşteri odaklı veri işleme
çalışmaları ile pazarlama ve satışa destek olmaktadır.
Örneğin indirim kuponları, bağlılık kartları (loyality
cards) gibi çok sayıda uygulama alanı bulunmaktadır.
Mobil cihazlar üzerinde geliştirilen uygulamalarla
konum bağımlı çözümler sunmaktadır (örneğin müşterinin bulunduğu konuma yakın
ve yine müşterinin geçmiş alışkanlıklarından üretilmiş tavsiyeler, reklam ve
bildirimlerde bulunmak gibi.
Risk hesaplamalarında, örneğin işletme, operasyon ve
saha risklerinin hesaplanmasında, sigortacılık alanında, anlık ve hızlı verilere
ulaşmayı sağlamaktadır.
Müşteri seçimi (en önemli, en çok etkisi olan, en
riskli, satın alma gücü en yüksek gibi) işlemlerini hızlı bir şekilde
yapabilmektedir.
Sistem suiistimallerini (virüs, zararlı yazılım,
sistem saldırısı yapan kişiler, terör örgütleri v.b.) kısa sürede
bulabilmektedir.
Büyük
Veri üzerindeki araştırma konuları
Büyük veri kavramı, uzun süredir akademinin ilgi
odaklarından birisidir.
Hızla gelişmekte ve yeni çalışma alanları açılmakta
olan konuda çok sayıda çalışma bulunmaktadır.
Bunlardan bazıları aşağıdadır.
Şifreli arama (encrypted search).
Bu çalışma, verilerin tamamen şifrelenmiş olduğu bir
ortamda, verilerin içeriğine erişmek dışında ulaşılabilecek bilgiler hakkında
yürütülmektedir.
Mart 2014 yılında, Amerikan Mühendislik Eğitimi
Topluluğu’na MIT Bilgisayar bilimleri ve yapay zeka laboratarından Amir
Esmailpour tarafından ‘’Tackling the challanges of Big Data’’ başlıklı sunum bu
konudaki önemli adımlardan birisidir.
Sunumda büyük verinin sağladığı yan bilgilerin yanında
güvenlik arttırımı önlemlerine de yer verilmiştir.
2012 yılının Mart ayında Beyaz saray tarafından
‘’Büyük Veri İnisiyatifi’’ (Big Data Initiative) ismi verilen bir yapı
kurulmuş ve bu inisiyatife 6 federal bölüm ve ajanstan 200 milyonun
üzerinde araştırma fonu aktarılmıştır.
Bu bölümler arasında, Ulusal Bilim Akademisi (National
Science Foundation, NSF) da yer almaktadır.
NSF ayrıca Kaliforniya Üniversitesi, Berkeley’deki
AMPLab için 5 yıllık proje için 10 milyon dolar üzerinde bütçe ayırmıştır.
AMPLab ayrıca DARPA’dan ve onlarca piyasa oyuncusundan
sponsorluklar almıştır.
Çalışmaları çok çeşitli konulara yayılan AMPLab,
otoyollardaki trafik tahminlerinden, kanser tedavisine kadar çok çeşitli
konularda araştırma yapmaktadır.
Beyaz saray büyük veri inisiyatifi aynı zamanda Enerji
Bakanlığı ile 25 milyon dolarlık ve 5 yıllık bir Ölçeklenebilir Veri
Yönetimi Analizi ve Görselleştirilmesi (Scalable Data Management, Analysis and
Visualization (SDAV)) projesi imzalamıştır.
SDAV projesi kapsamında, 6 ulusal laboratuvar ve 7
üniversiteden elde edilen bilgi birikiminin birleştirilmesi ve
bakanlığın süper bilgisayarlarında görselleştirilmesi hedeflenmektedir.
Avrupa komisyonu tarafından desteklenen 7. Çerçeve
programında, işletme ve akademisyenlerin büyük veri konularını tartışabilmesi
için 2 yıllık ‘’Büyük Veri Açık Özel Forumu’’ (Big Data Public Private
Forum) ismi verilen çalışmaya yer verilmiştir.
Projenin ana amacı, Avrupa Birliği kapsamında
büyük veri ekonomisine geçişi hedeflemektedir (Proje ayrıca horizon2020
kapsamındadır) 2015 yılında da corbis üzerinden yeni büyük veri çağrısı
yapılacağı duyurulmuştur.
İngiliz hükümeti tarafından Mart 2014 yılında Alan
Turing enstitüsü tarafından büyük veri toplanacağı ve üzerinde çalışma
yapılacağı duyurulmuştur.
Massachusetts eyaleti tarafından Büyük Veri Girişimi
ismi verilen girişim Mayıs 2012 yılında özel işletmeler ve araştırma
enstitülerinin katılımı ile kurulmuştur.
MIT bilgisayar bilimleri ve yapay zeka laboratuvarının
da etkisi ve Intel Bilim ve Teknoloji merkezinin de katılımı ile proje
ilerlemektedir.
Türkiyede bulut bilişim ve büyük veri uygulamalarını
yürüten önemli veri merkezlerinden birisi Türk Telekom Veri Merkezidir (TTVM).
Hiç yorum yok:
Yorum Gönder