Hadoop Domuz Eğitimi: Apache Domuzu Nedir? Mimari, Örnek

Pig'in tanıtımıyla başlayacağız

Apaçi Domuzu nedir?

Pig, büyük veri kümelerini analiz etmek için kullanışlı olan üst düzey bir programlama dilidir. Pig, Yahoo!'daki geliştirme çabalarının bir sonucuydu!

Bir MapReduce çerçevesinde, programların bir dizi Harita ve Azaltma aşamasına çevrilmesi gerekir. Ancak bu, veri analistlerinin aşina olduğu bir programlama modeli değildir. Bu boşluğu kapatmak için Hadoop'un üzerine Pig adlı bir soyutlama inşa edildi.

Apache Pig, insanların daha fazla odaklanmasını sağlar toplu veri kümelerini analiz etmek ve Map-Reduce programlarını yazmak için daha az zaman harcamak. Her şeyi yiyen Domuzlara benzer, Apaçi Domuzu Programlama dili her türlü veri üzerinde çalışmak üzere tasarlanmıştır. Bu yüzden adı Domuz!

Bu yüzden adı Domuz!



Bu yeni başlayanlar için Apache Pig eğitiminde şunları öğreneceksiniz:

domuz mimarisi

Domuz Mimarisi iki bileşenden oluşur:

  1. Bozuk Latince, hangi bir dil
  2. Bir çalışma zamanı ortamı, PigLatin programlarını çalıştırmak için.

Bir Pig Latin programı, çıktı üretmek için girdi verilerine uygulanan bir dizi işlem veya dönüşümden oluşur. Bu işlemler, Hadoop Pig yürütme ortamı tarafından yürütülebilir bir temsile çevrilen bir veri akışını tanımlar. Altında, bu dönüşümlerin sonuçları, bir programcının farkında olmadığı bir dizi MapReduce işidir. Yani, bir bakıma Pig in Hadoop, programcının yürütmenin doğasından ziyade verilere odaklanmasını sağlar.

PigLatin, örneğin Join, Group ve Filter gibi veri işlemeden tanıdık anahtar sözcükleri kullanan nispeten katı bir dildir.

domuz mimarisi

Yürütme modları:

Hadoop'ta Pig'in iki yürütme modu vardır:

  1. Yerel mod: Bu modda, Hadoop Pig dili tek bir JVM'de çalışır ve yerel dosya sistemini kullanır. Bu mod yalnızca Hadoop'ta Pig kullanılarak küçük veri kümelerinin analizi için uygundur
  2. Harita Küçültme modu: Bu modda, Pig Latince yazılmış sorgular Harita indirgeme işler ve bir Hadoop kümesinde çalıştırılır (küme sözde veya tamamen dağıtılmış olabilir). Tamamen dağıtılmış kümeye sahip MapReduce modu, Pig'i büyük veri kümelerinde çalıştırmak için kullanışlıdır.

Pig Nasıl İndirilir ve Kurulur

Şimdi bu Apache Pig eğitiminde, Pig'i nasıl indirip kuracağımızı öğreneceğiz:

Asıl işleme başlamadan önce, Hadoop'un kurulu olduğundan emin olun. Kullanıcıyı 'hduser' olarak değiştirin (kimlik Hadoop yapılandırması sırasında kullanılır, Hadoop yapılandırmanız sırasında kullanılan kullanıcı kimliğine geçebilirsiniz)

Aşama 1) Pig Hadoop'un kararlı en son sürümünü şu adreste bulunan ayna sitelerinden herhangi birinden indirin.

http://pig.apache.org/releases.html

Seçme tar.gz (ve yok kaynak.tar.gz) indirmek için dosya.

Adım 2) İndirme işlemi tamamlandıktan sonra, indirilen tar dosyasını içeren dizine gidin ve tar dosyasını Pig Hadoop'u kurmak istediğiniz konuma taşıyın. Bu durumda, /usr/local'a geçeceğiz

Pig Hadoop Dosyalarını içeren bir dizine taşıyın |_+_|

tar dosyasının içeriğini aşağıdaki gibi çıkarın |_+_|

Aşama 3). değiştir ~/.bashrc Domuzla ilgili ortam değişkenlerini eklemek için

Açık ~/.bashrc istediğiniz herhangi bir metin düzenleyicide dosyalayın ve aşağıdaki değişiklikleri yapın- |_+_|

Adım 4) Şimdi, aşağıdaki komutu kullanarak bu ortam yapılandırmasını kaynaklayın |__+_|

Adım 5) yeniden derlememiz gerekiyor DOMUZ desteklemek Hadoop 2.2.0

İşte bunu yapmak için adımlar-

PIG ana dizinine git |_+_|

Ant yükleyin |_+_|

Not: İndirme başlayacak ve internet hızınıza göre zaman alacaktır.

PIG'yi Yeniden Derleyin |_+_|

Lütfen bu yeniden derleme işleminde birden çok bileşenin indirildiğini unutmayın. Bu nedenle, bir sistem internete bağlı olmalıdır.

Ayrıca, bu işlem bir yerde takılırsa ve 20 dakikadan fazla komut isteminde herhangi bir hareket görmezseniz, ardından düğmesine basın. Ctrl + c ve aynı komutu tekrar çalıştırın.

Bizim durumumuzda, 20 dakika sürer

Adım 6) test edin Domuz |_+_| komutunu kullanarak kurulum

Örnek Domuz Komut Dosyası

Her Ülkede Satılan Ürün Sayısını bulmak için Pig Komut Dosyalarını kullanacağız.

Giriş: Girdi veri setimiz bir CSV dosyasıdır, SatışOcak2009.csv

Adım 1) Hadoop'u Başlat |_+_| |_+_|

Adım 2) Pig in Big Data, MapReduce modunda HDFS'den bir dosya alır ve sonuçları tekrar HDFS'ye depolar.

Dosya kopyalamak SatışOcak2009.csv (yerel dosya sisteminde saklanır, ~ / girdi / SalesJan2009.csv ) HDFS'ye (Hadoop Dağıtılmış Dosya Sistemi) Ana Dizinine

Bu Apache Pig örneğinde, dosya Klasör girişindedir. Dosya başka bir yerde saklanıyorsa, bu adı verin |_+_|

Bir dosyanın gerçekten kopyalanıp kopyalanmadığını doğrulayın. |_+_|

Aşama 3) Domuz Yapılandırması

İlk önce $PIG_HOME/conf |_+_| |_+_|

Açık domuz.özellikleri seçtiğiniz bir metin düzenleyiciyi kullanarak ve kullanarak günlük dosyası yolunu belirtin domuz.log dosyası

cd /usr/local

Loger, hataları günlüğe kaydetmek için bu dosyayı kullanacaktır.

Adım 4) Etkileşimli bir kabuk Pig sorguları olan Pig komut istemini başlatacak olan 'pig' komutunu çalıştırın. |_+_|

Adım 5) Pig için Grunt komut isteminde, aşağıdaki Pig komutlarını sırayla yürütün.

-- A. Veri içeren dosyayı yükleyin. |_+_|

Bu komuttan sonra Enter'a basın.

-- B. Verileri alana göre gruplandır Ülke |__+_|

-- C. İçindeki her bir demet için 'Ülkeye Göre Grup' , formun sonuç dizesini oluşturun-> Ülke Adı: Satılan ürün sayısı |_+_|

Bu komuttan sonra Enter'a basın.

-- D. Veri Akışı sonuçlarını dizinde saklayın 'pig_output_sales' HDFS'de

sudo tar -xvf pig-0.12.1.tar.gz

Bu komutun yürütülmesi biraz zaman alacaktır. Bittiğinde, aşağıdaki ekranı görmelisiniz

Adım 6) Sonuç, komut arayüzü aracılığıyla |__+_| şeklinde görülebilir.

Sonuçlar ayrıca bir web arayüzü aracılığıyla da görülebilir:

Bir web arayüzü aracılığıyla sonuçlar-

Açık http://localhost:50070/ bir web tarayıcısında.

Şimdi seçin 'Dosya sistemine göz atın' ve yukarıya doğru gezinin /user/hduser/pig_output_sales

Açık part-r-00000