-- Etkinlik, Veri Bilimi

Spark Day’16 | 22 Ekim 2016 (Taslak Program)

Merhabalar,

Veri bilimcileri, veri analistlerin merakla beklediği Spark Day ‘2016 22 Ekim Cumartesi günü İTÜ Ulusal Yüksek Başarımlı Hesaplama Merkezinde gerçekleştirilecektir. Görmek istediğiniz sunumları oylayarak SparkDay programını belirleyebilirsiniz. Big Data’ya dair herşey Spark Day 2016’da.

Tarih: 22 Ekim 2016 Cumartesi – 9:00 AM – 5:00 PM

Yer: İstanbul Teknik Üniversitesi Ulusal Yüksek Başarımlı Hesaplama Merkezi
İTÜ Ayazağa Kampüsü, Bilişim Enstitüsü Binası
Maslak-34469, İstanbul

Etkinlik Kayıt: https://www.eventbrite.com/e/spark-day-2016-tickets-28551005827

Sunum Oylaması için: https://goo.gl/forms/dAvklAK8H2otJZ5s1

Sunumlar (Oylamadan sonra kesinleşecektir.)

1- SuggestGrid’de Spark Collaborative Filtering Üzerine Geliştirmelerimiz | Han Tüzün

Geliştirdiğimiz SuggestGrid SaaS tavsiye motorunda modellerimizi yaratmak işin Apache Spark’ın Alternating Least Squares (ALS) Collaborative Filtering algoritmasını kullanıyoruz.Fakat kullanıcılarımızın ihtiyaçlarına cevap verebilmek için modelleri kullanarak tavsiye verme işlemini kendimiz yapmak durumunda kaldık.

Bu sunumda nasıl K-means algoritması ile modellerin boyutu ne olursa olsun tavsiye hesaplama işlemini nasıl scalable yaptığımızı, Spark’ın sadece integer’larla çalışan algoritmasını nasıl Striglerle calıştırdığımızı, ve ALS algoritmasında olmayan benzerlik hesaplama, birden fazla id için tavsiye üretme gibi problemlere yaklaşımlarımızı anlatacağım.

2- Building a collaborative environment for a data science/machine learning team on a GNU/Linux box | Berkin Malkoç

Any non-trivial data science/machine learning project requires a data team. Building a collaborative development environment for the data team that is both easy to work in, and which imposes a maximal level of reproducibility to avoid waste of time and effort is crucial. As with any other software project, a portable runtime environment that enables team members to work locally and to deploy easily to production environment can be the determining factor in a data science project’s success. In this talk, I will describe how to put together such a collaborative development environment using a choice of open source tools.

3- Spark İle Genomik Farklılıkların Analizi | Yasemin TİMAR

DNA dizilim teknolojisindeki ilerleme ile birlikte bireylerin DNA dizilerinin elde edilmesi işlemi giderek daha hızlı ve ucuz olarak gerçekleşmektedir, bu da giderek daha çok verinin üretilmesi manasına gelmektedir. Aynı türün bireylerinin DNA dizilerinin %99.9 oranında aynı olması gözününe alınarak, şu anda tercih edilen yöntem; bireyin DNA dizisinin kendi türüne ait referans genoma hizalanması (alignment) ve sonrasında da bu referans genomdan farklılıklarının tesbit edilerek, sadece bu farklılıkların bir dosyaya yazılması şeklindedir. Bu şekilde ortaya çıkan dosyalar Variant Call Format (VCF) formatında kaydedilmektedir.

4- integer8: Visual Integration with Spark | Selahattin Güngörmüş

Integer8 adında büyük veri platformlarında görsel veri entegrasyonu yapabilen bir ürün geliştiriyoruz.

Ürünümüz web arayüzünden hizmet veriyor ve execution engine olarak Spark’ı kullanıyor. Daha detaylı bilgi veya isterseniz ekran görüntüsü paylaşabilirim. Spark ile veri entegrasyonunda yapabildiklerimizi etkinlikte anlatmak ve bir demo yapmak isteriz.
Demo içeriğini Apache Access Logları ile Oracle tablolarının entegrasyonu olarak öneriyoruz.

5- Streaming | Şükrü Hasdemir

Büyük Veri Mimarileri Akış İşleme’nin (Stream Processing) avantajları, kullanım alanları. Genel bir Büyük Veri mimarisinin bileşenleri. Event data. Açık kaynaklı Stream Processing kütüphaneleri. Pratik tecrübelerden tavsiyeler. Yapay Öğrenme’nin ölçeklenebilir yazılım sistemlerine entegrasyonu.

6- Gerçek Zamanlı Sosyal Medya Analizi | Barış AKGÜN

Sosyal medya sitelerinden alınan veri spark streaming ile kafka’dan consume edilir. Spark Streaming tarafında sosyal medya verisi üzerinde iş kuralları çalıştırılarak gerekli aksiyonlar alınır. Aynı zamanda alınan sosyal medya verisi anlam analizi ile kategorilendirilerek hbase tablosuna kayıt edilir. Hbase üzerine kayıt edilen veri Lily HBASE indexer kullanılarak Solr’da indexlenip üzerinde metin bazlı arama yapılmasına olanak sağlanır.

7-Hurriyet’te Big Data Dönüşümü | Uluç Şahinalp

Hurriyet.com.tr ve mobil dikeylerden gelen tüm click stream datasının anlamlandırılması için daha önce teradata üzerinde yapılan relational data mimarisini günümüz teknolojilerine adapte etmek ve bir banka gibi duruan CRM datası gibi konuyu ele almanın hedeflerimize bizi ulaştıramayacağı konusunda yönetimi ikna ettikten sonra yapıyı almost realtime bir topology içine taşımaya özetle debisi çok yüksek bir nehirde yüzen kırmızı balıkları yakalama kararı verdik. Bu aşamada yaptığımız ARGE çalışmaları içinde ilk aşamada ihtiyacımızı bilinen en standart complex event mimarisi bileşenleri ile yani kafka+storm+hadoop bileşenlerini kullanarak çözmeyi planladık ancak Amazon web servisleri ile hızlı çevik ve kolay bileşenleri yardımıyla development maaliyetlerini yarıdan aza düşürmek, servis ihtiyacını altyapı ve server ihtiyacını ve maaliyetlerini dörtde bir oranda azaltmak ve auto-scaling konusunda kendi kendini yöneten güçlü bir mimariye geçebileceğimizi anladık. Daha önce clickstream datasını node.js serverları ile karşılayıp teradataya aktarıp şanslıysak bir gün sonra anlamlandırabildiğimiz segmentasyon datasını 20 dakika içinde oluşturmanın keyfini Elastic MAP REDUCE (EMR) ile Spark’ın gücünü keşfederek yaşadık. Hadoop’un hdfs yapısını kullandık ancak batch process yerine memory de map ettiğimiz datayı işleyip lambda mimarisi ile scheduler rulebased bir yapıda işleyip realtime yada almost realtime çıktılar üreterek haberin metnine göre DFP’nin beslenmesi ve haber ile ilintili olarak reklam çıkartılabilmesi yeteneğinin kazanılmasını ve hedefli reklamcılık yapabilme özgürlüğüne kavuştuk. Editorlerin 3 dakika içinde girdikleri haberlerin ne kadar PV yarattığını görmelerini ve anında haberin önceliğini belirleyebilmek için müşteri davranışlarına göre gerçek zamanlı aksiyonlar almalarını sağladık.

8- Spark 2.0 in Action – Developing Predictive Models | Ömer Faruk Kurt

Churn prediction is one of the most popular machine learning (ML) applications in the telecommunications industry and in many other subscriptions-based industries as well. By predicting high propensity churners, service providers can offer promotional services to ensure the loyalty of their customers.

Spark 2.0 is used in our project as the main framework. Spark MLlib is a distributed ML framework on top of Spark Core that scales easily to handle billions of observations and processes more efficiently than implementations. Oredata churn prediction implementation employs statistical functions, Decision Trees, and Ensembles of trees (Random Forests and Gradient-Boosted Trees) algorithms. Spark SQL and Spark Dataset are used to load and manipulate data. The current primary MLlib DataFrame-based API is used for feature engineering, model fitting, and model evaluation.

9- Spark ile akan veriyi işleme | Hakan Sarıbıyık

– Veri işleme : Yığarak (Batch) mı, akarken (Stream) mi?
– Appliance kullanmak zorunluluk mudur?
– Nasıl bir donanım?
– Spark akış işleme için bir mimari örneği
– Serdes : Serialization ve Deserialization gerekli midir?
– Mimarinin gerçeklenmesi için nereden başlamalı?
– Geliştirme döngüsü ve kullanılan araçlardan bazıları
– İzleme (Monitoring) ve operasyonel işleyişe dair birkaç not
– Raporlama ve veri analizi yapmak. Çok kısa bir bakış

10- Perform Spark queries using Spark SQL and DataFrames | Zekeriya Beşiroğlu

General application optimization guidelines/tips and tricks