Rapid Miner ile Veri Madenciliği
By Sadi Evren SEKER and Demet Erdoğan
()
About this ebook
Bu kitabın amacı; makine öğrenmesi, veri madenciliği, metin madenciliği, tahmin edici analiz ve iş analizi kavramlarını özetleyerek ve bu kavramları Rapid Miner programı üzerinden uygulamalı olarak göstermektir.
Sadi Evren SEKER
2000 ylında, Yeditepe Üniversitesi Bilgisayar Mühendisliği bölümünü tek mezunu olarak tamamladım. Mezuniyetimin ardından yine aynı bölümde yüksek lisansıma ve araştırma görevlisi olarak çalışmaya başladım. 2003 yılındaki mezuniyetimden önce Istanbul Teknik Üniversitesinde benim için ikinci bir yüksek lisans programı olan, Bilim Teknoloji ve Toplum programına kayıt yaptırdım ve 2004 yılında da ikinci yüksek lisansımı tamamladım. 2004-2005 yılları arasında genel kurmayda internet subayı olarak askerlik görevimi tamamladım. 2005- 2010 yılları arasında Yıldız Teknik Üniversitesi’nde doktoramı tamamladım ve bu sürede çeşitli üniveristelerde ders verdim. Doktora sonrası araştırma için bulunduğum UT Dallas’ta Yönetim Bilişim Sistemleri alanına geçiş yaptım ve doçentliğimi bu alanda aldım. Akademik çalışmalarım akan veri madenciliği, büyük veri yönetimi ve bilgi yönetimi konularındadır.
Read more from Sadi Evren Seker
Knime ile Uçtan Uca Veri Bilimi: EDUCATION Rating: 5 out of 5 stars5/5Weka ile Veri Madenciliği Rating: 5 out of 5 stars5/5Python'a Giriş, Veri Yapıları ve Nesne Yönelimli Programlama Rating: 0 out of 5 stars0 ratingsProgramlama ve Veri Yapılarına Giriş JAVA, C, C++ dilleri ile Rating: 5 out of 5 stars5/5
Related to Rapid Miner ile Veri Madenciliği
Related ebooks
Derinlemesine React UI Rating: 0 out of 5 stars0 ratingsDerinlemesine Java - MVC, JSF & Primefaces Rating: 0 out of 5 stars0 ratingsDerinlemesine Android Data Programming Rating: 0 out of 5 stars0 ratingsDerinlemesine Java - Patterns, CDI ve Spring Rating: 0 out of 5 stars0 ratingsPython İle Makine Öğrenmesi: Education, #277 Rating: 0 out of 5 stars0 ratingsBilişim Teknolojileri Ekonomisi Toplumu Rating: 5 out of 5 stars5/5Derinlemesine Spring Boot Web Rating: 0 out of 5 stars0 ratingsDerinlemesine Linux for Administrators Rating: 0 out of 5 stars0 ratingsDerinlemesine Java Database Programming Rating: 0 out of 5 stars0 ratingsGoogle Pazarlama (E-Pazarlama, Dijital Pazarlama, Internet Pazarlaması) Rating: 0 out of 5 stars0 ratingsPPC'ye basit bir yaklaşım: Web'de ücretli reklamcılığın çalışma mekanizmasını anlamak için bilgi ve anahtar kavramlar Rating: 0 out of 5 stars0 ratingsDerinlemesine C ++ ve Object-Oriented Programming Rating: 0 out of 5 stars0 ratingsInternet Nasıl Çalışır?: Education Rating: 0 out of 5 stars0 ratingsDerinlemesine Android Programming Rating: 0 out of 5 stars0 ratingsDoğrudan Java Web Enterprise Mobile Programming Rating: 0 out of 5 stars0 ratingsDerinlemesine SQL Rating: 0 out of 5 stars0 ratingsDerinlemesine Java - ORM, JPA & Hibernate Rating: 0 out of 5 stars0 ratingsYAPARSAN E-TİCARET YAPMAZSAN Eee TİCARET OLUR!: 1, #1 Rating: 0 out of 5 stars0 ratingsDerinlemesine React Rating: 0 out of 5 stars0 ratingsYazılı iletişimin optimize edilmesi: Fikirleri açık ve etkili bir şekilde formüle etmek için teknikler ve ipuçları Rating: 0 out of 5 stars0 ratingsSosyal Yazılar Rating: 0 out of 5 stars0 ratingsDerinlemesine Android UI Programming Rating: 0 out of 5 stars0 ratingsLaboratuardaki İblis: Şiir Rating: 0 out of 5 stars0 ratingsHavalimanı Reklamcılığı ve İletişim Üzerine Birkaç Söz Rating: 0 out of 5 stars0 ratingsDaha İyi Bir Dünya İçin Yapay Zeka Rating: 0 out of 5 stars0 ratingsDijital Kaplumbağa Rating: 0 out of 5 stars0 ratingsDeniz Taşımacılığında Yakıt Tüketimi ve Graf Teorisi Uygulamaları Rating: 0 out of 5 stars0 ratingsYapay Zekanın Geleceği: İnsanlığın Yeni Dönemi Rating: 0 out of 5 stars0 ratings
Reviews for Rapid Miner ile Veri Madenciliği
0 ratings0 reviews
Book preview
Rapid Miner ile Veri Madenciliği - Sadi Evren SEKER
Önsöz
Kısaca Rapid Miner
2001 yılında, YALE (Yet Another Learning Environment) olarak ilk kez duyurulan Rapid Miner yazılımı, günümüzde bulunan makine öğrenmesi, veri madenciliği veya ETL gibi süreçlerin %99’unu gerçekleştirebilecek donanımdadır (kaynak : Bloor Research). Rapid Miner, Java dilinde yazılmış olup, kendi içerisine Java dili ile kod eklenme imkanı sağlamasının yanında, Python, Weka veya R gibi diller/ortamlarla da uyumlu olarak çalışabilmektedir.
Ücretli ve ticari versiyonunun yanında, sonsuza kadar ücretsiz olacağı vaat edilmiş olan ve AGPL lisansı ile dağıtımı süren topluluk sürümü de bulunmaktadır. Ayrıca akademik amaçlarla kullanılması için de akademik lisans alınması mümkündür.
Neden Rapid Miner?
Rapid Miner için böyle bir kitabı yazmamızdaki amaç, Rapid Miner’ın gerçekten çoğu yazılımla rekabet edebilecek kadar kuvvetli olan özelliklerinin yanında, veri bilimi, veri madenciliği, veri mühendisliği veya veri yönetimi gibi kavramlara yeni giriş yapacak olan kişiler için hem sıkça kullanılan bir yazılımı tanıtma imkanı veriyor olması hem de ücretsiz olarak çoğu kavramı öğrenme imkanı sunuyor olmasıdır.
Rapid Miner, sıralamalarda kullanım oranları ve tercih edilebilirlik açısından çoğu ücretli yazılım ile rekabet edebilen bir yazılım olması ve hem yeni başlayan hem de uzman seviyesindeki kullanıcıların ihtiyaçlarına cevap verebiliyor olması açısından önemli bir yazılım olarak görülmektedir. Gelişmekte olan büyük veri teknolojisine ayak uydurarak sunucu mimarisinin üzerinde çalışabilmesi veya radoop olarak isimlendirilen hizmeti bulut üzerinden sunuyor olması gibi çok sayıda güncel gelişmeye ayak uyduran özelliğinin yanında yüzlerce eklenti seçeneği ile oldukça geniş bir alanda bu konuda çalışacak olan kişilerin başlangıç yapabilmesine imkan sağlamaktadır.
Kitap Hakkında
Rapid Miner kitabını, giriş yapan ve hiç bilmeyen kişilere göre hazırladık. En basit eğitim bilgisini ele alarak basit işlemlerle başlayan kitapta, daha sonra güncel olarak sektörde kullanılan bazı örneklere yer vermeye çalıştık. Bu anlamda pazarlamadan büyük veriye kadar çok farklı alanlardaki uygulamalara yer verdik. Kitabı ayrıca daha önce yayınlanan Weka kitabı ile birlikte okumak da mümkündür. Veri biliminin en önemli parçasını, veri bilimi algoritmaları oluşturmaktadır ve Weka kitabında bu algoritmaları detaylı olarak açıklamaya çalışmıştık. Rapid Miner kitabında ise hem kavramlara genel bir giriş yaparak ETL süreçlerinden bahsettik, hem de Rapid Miner ortamında veri madenciliği işlemlerinin nasıl yapılabileceğini göstermeye çalıştık. Bu anlamda Weka kitabında bulunan bütün algoritmaları tekrar anlatmadık ve bu işi ilgilenen kişilerin Weka kitabından okuyarak Rapid Miner’da uygulamasına bıraktık.
Kitabın Yazımı Hakkında
Bu kitabı, yaklaşık bir yıl süren Youtube macerasının bir sonucu olarak görmek mümkündür. Büyük veri ve Hadoop videoları çekerek başladığımız YouTube macerasında 1 yıllık süre içerisinde Weka, Veri Tabanına giriş, Programlamaya giriş, Java’ya giriş gibi çok sayıda videoyu tamamladık ve R Programlama, Python, MySQL gibi çok sayıda video serisine de devam etmekteyiz. Ayrıca veri bilimi, veri madenciliği, büyük veri gibi konular da dahil olmak üzere, sektörden ve akademiden çok sayıda uzman ile röportaj ve söyleşilerimiz de YouTube kanalımız üzerinde bulunmakta.
YouTube kanalında başladığımız ve video serisi olarak tamamladığımız bu videoları, daha sonra Demet Erdoğan’ın yoğun ve özverili çalışmaları ile kitap haline getirdik. Gerek videoların hazırlanma sürecinde, gerekse videoların kitaplaştırılması sürecinde uzun süreler boyunca yoğun ve özverili bir şekilde sabahlara kadar çalışarak tamamlayan Demet Erdoğan’a buradan bir kere daha teşekkürlerimi sunarım.
Kitabın video serisine paralel olarak hazırlanmış olması, ayrıca bu konuda ilerlemek isteyen ve kitabı kullanarak kavramları öğrenmek isteyen kişilere, kitabın paralelinde videoları da izleyerek çalışma imkanı sunmaktadır. Bu anlamda YouTube üzerinden BilgisayarKavramları isimli kanalımız aranarak bulunabilir veya hem kanala hem de Rapid Miner videolarına doğrudan aşağıdaki bağlantıdan erişilebilir.
YouTube Kanalı: http://www.youtube.com/c/Sadievrenseker_BK
Rapid Miner Eğitim Serisi:
https://www.youtube.com/watch?v=mFO2fGYzMgQ&list=PLh9ECzBB8tJN-rTkIyGIDJwTRBNSIZwTQ
Rapid Miner Örnekler Serisi:
https://www.youtube.com/watch?v=KC1I1Hy8nRA&list=PLh9ECzBB8tJNnTWLYRFMaib8ds6x62LvE
1. Giriş ve Yazılım Hakkında
Bu bölüm amacı, Rapid Miner programını tanıtmaktır.
Bu yazı, Rapid Miner’ın 7.0 versiyonu esas alınarak hazırlanmıştır ve yazının yazılma tarihi itibariyle henüz yeni bir versiyondur.
Rapid Miner bir topluluk yazılımı (community founded software) ve dolayısıyla ücretsizdir. Ayrıca akademik ve profesyonel versiyonları da bulunmaktadır. Akademik versiyonu da ücretsiz olmakla birlikte profesyonel versiyonu ücretlidir.
Rapid Miner, içinde veri madenciliği, veri bilimi ve makina öğrenmesiyle ya da iş zekasıyla ilgili çok fazla aracı birleştirilebilen ve uçtan uca çözüm yapılabilen, veriyi alıp ön işlemeden geçirip, makine öğrenme süreçlerinden geçirip en son raporlamaya, görselleştirmeye kadar götürülebilen bir araçtır.
2. Ekranları ve Ortamı Tanıma
Bu bölümde amaç, Rapid Miner ekranlarını tanıtmaktır.
Rapid Miner Studio 7 serisi ilk kez açıldığında Şekil 2.1’deki yükleme ekranıyla çalışmaya başlar.
Şekil 2.1
Tanıtım videolarını içeren bu ekranda soldaki düğmelerden New Process
tıklanarak Şekil 2.2 ‘de görülen ekrana geçilebilir.
Şekil 2.2
Şekil 2.2’de görülen bazı hazır şablonlar bu ekrandan seçilebilir ancak burada boş ("blank") bir process seçerek işleme başlanacaktır. Boş (blank) işlem kutucuğu seçildikten sonra Şekil 2.3'deki görülen ekran açılır.
Şekil 2.3
Şekil 2.3’ün sol üst kısmında görülen "Repository penceresi örnek verileri içerir. Rapid Miner’a dışarıdan veri eklerken repository bölümüne eklenir.
Operators penceresi veri madenciliği ile ilgili işlemleri, operatörleri içerir. Bu operatörlerin parametreleri sağ üst köşede görülmektedir. Ekranın ortasındaki
Process" yazan boş alanda ise işlemler yapılacaktır.
3. Veri Deposuna (Repository) Veri Yüklenmesi
Bu bölümde amaç, Rapid Miner içerisinde bulunan herhangi bir örnek veri setinin sisteme yüklenmesini göstermektir.
Bu çalışmada Rapid Miner içerisindeki örnek Titanic
veri kümesi kullanılacaktır. Şekil 3.1’de görüldüğü gibi, repository klasöründen "titanic" veri seti seçilip sürüklenerek process penceresine bırakılır .
Şekil 3.1
Titanic, gemi ile ilgili veri içerir. Burada titenic yerine başka bir veri seti de kullanılabilir. Şekil 3.2’de görüldüğü gibi, Retriew Titanic
kutucuğunun sağındaki "out kulakçığı ile process penceresinin sağ üst kısmında bulunan result’ın kısatması
res (sonuç) kulakçıkları birleştirilirse Titanic’ten çekilen veri sonuca bağlanmış olur. Bu, Rapid Miner’da bir bilgi akışı gibi de düşünülebilir, buna
knowledge flow" denmektedir.
Şekil 3.2
Titanic yerine, Şekil 3.3’te gösterilen "parameters penceresinin içerisindeki
repository entry"den herhangi başka bir örnek veri seti seçilebilir.
Şekil 3.3
Şekil 3.3’te görüldüğü gibi, kullanılacak örnek veri setini değiştirmek için, çıkan ekrandan herhangi başka bir örnek veri seçilebilir. Seçim yapıldıktan sonra Retriew Titanic
isminin değiştirilmesi gerekir. Şekil 3.4, bu değişimin nasıl yapılacağını göstermektedir.
Şekil 3.4
Şekil 3.4’te görülen pencereyi açabilmek ve isim değiştirebilmek için retrieve titanic
kutucuğuna sağ tıklanır ve açılan pencereden "rename operatör" seçilerek yeni isim verilir. İşlem için istenildiği kadar örnek veri kullanılabilir. Örneğin Şekil 3.5’te görüldüğü gibi, Titanic isimli verinin yeni ismi "deneme isim yapıldı ve
iris" isimli bir örnek veri daha eklendi. Ekleme işlemi yukarıda bahsedilen gibi solda bulunan repository klasörünün içerisindeki herhangi bir veri setine tıklayıp sürükleyerek process penceresinin içindeki boş alana bırakılır.
Şekil 3.5
Veri seti hakkında özet bilgi, kısa yoldan görüntülenebilir. Örneğin, Şekil 3.6’da görüldüğü gibi, deneme isim
diye adlandırılan veri setinin,