Makalah Advanced Analytics-Teknologi dan Alat: MapReduce dan Hadoop

MAKALAH

 Advanced Analytics-Teknologi dan Alat: MapReduce dan Hadoop





Disusun oleh Kelempok 8:
Bagja Septian m 41155050160035
Rizki Ginanjar 41155050160034
Soni Hidayatulloh 41155050160118
Vanysa Rahayu 41155050160124





FAKULTAS TEKNIK
PROGRAM STUDI INFORMATIKA
UNIVERSITAS LANGLANGBUANA
 BANDUNG
 2019

KATA PENGANTAR

Puji syukur kehadirat Allah SWT Yang Maha Pengasih lagi Maha Penyayang, karena  berkat rahmat dan hidayah-Nya, kami bisa menyusun dan menyajikan makalah sebagai salah satu  tugas kuliah yang membahas tentang’’Advanced Analytics-Teknologi dan Alat: MapReduce dan  Hadoop”. Kami juga mengucapkan terima kasih kepada selaku dosen mata kuliah Arsitektur data yang telah memberikan bimbingannya kepada kami dalam proses penyusunan makalah ini. Kami menyadari bahwa makalah ini masih jauh dari sempurna, oleh karena itu kritik dan  saran dari semua pihak yang bersifat membangun selalu kami harapkan demi kesempurnaan  makalahini.

Akhir kata, kami sampaikan terima kasih kepada semua pihak yang telah berperan serta dalam  penyusunan makalah ini dari awal sampai akhir. Semoga Allah SWT senantiasa meridhai segala  usaha kita. Amin.



Bandung, 01 Juli 2019
Penyusun

DAFTAR ISI
Halaman
KATA PENGANTAR ................................................................................................
DAFTAR ISI ..............................................................................................................
BAB I PENDAHULUAN ...........................................................................................
1.1 Latar Belakang ..............................................................................................
1.2 Pengertian Hadopp........................................................................................
BAB II PEMBAHASAN ............................................................................................
2.1 Analytics untuk Data Unstructured.................................................................
 2.2 Gunakan kasus..............................................................................................
2.2.1 Apache hadopp .....................................................................................
2.2.2 hadopp...................................................................................................
2.2.3 The hadopp Ekosistem ........................................................................
 2.3 Apache pig .....................................................................................................
 2.4 Hive................................................................................................................
 2.5 Hbase .............................................................................................................
 2.6 Hbase Arsitektur&model data......................................................................
 2.7 Mahout...........................................................................................................
 2.8 NoSql..............................................................................................................
BAB III PENUTUP ....................................................................................................


BAB I
PENDAHULUAN
1.1. Latar belakang
Bekerja dan menganalisis big data akan menjadi sangat sulit jika menggunakan cara klasik seperti system manajemen basis data relasional atau paket software desktop untuk statistic dan visualisasi data. Seharusnya big data  membutuhkan cluster yang sangat besar dengan ratusan atau bahkan ribuan  kodding komputasi. Salah satu software tools yang sukses digunakan untuk  memproses big data adalah Hadoop. Untuk mengoptimasikan fungsi Hadoop ini bagi permasalahan pada bidang statistic, maka munculah Rhadoop yang  merupakan perpaduan dari alat pengolahan statistika, yaitu R dengan Hadoop.

1.2. Pengertian Hadoop
Hadoop merupakan framework software berbasis java dan open source yang  berfungsi untuk mengolah data yang memiliki ukuran besar secara terdistribusi.  Hadoop dikembangkan dengan tujuan untuk mendistribusikan proses dari data  set yang besar menggunakan beberapa cluster dari komoditas hardware. Hadoop juga merupakan sebuah platform middleware yang mengatur sebuah cluster dari beberapa computer yang dikembangkan pada platform Java, dimana java  merupakan bahasa pemrograman utama untuk Hadoop, bahasa lain yang dapat juga digunakan untuk Hadoop adalah R, Python atau Ruby.


BAB II
PEMBAHASAN
2.1 Analytics untuk Data Unstructured
Sebelum melakukan analisis data, data yang dibutuhkan harus dikumpulkan  dan diproses untuk mengekstrak informasi yang berguna. Tingkat awal pengolahan dan  data persiapan tergantung pada volume data, serta bagaimana mudah itu adalah untuk  memahami struktur data. empat jenis struktur data yang dibahas dalam Bab 1, “Pengantar Big data Analytics”: 
*Tersusun : Sebuah format tertentu dan konsisten(contohnya Tabel data)
*Semi-terstruktur : Sebuah format self-describing(contohnya file XML)
*Kuasi-tersturktur : Sebuah format tidak konsisten(contohnya hyperlink)
*Unstructrude : Format tidak konsisten(contoh nya text atau video)

2.2 Gunakan Kasus
berikut beberapa kasus penggunaan untuk MapReduce. Paradigma  MapReduce menawarkan cara untuk memecahkan tugas yang besar menjadi tugas  yang lebih kecil, menjalankan tugas-tugas secara paralel, dan mengkonsolidasikan  output dari tugas individu ke dalam hasil akhir. Apache Hadoop termasuk  implementasi software dari MapReduce.

IBM Watson 
Pada tahun 2011, sistem komputer IBM Watson berpartisipasi dalam acara permainan  televisi AS terhadap dua dari yang terbaik juara dalam sebuah acara tersebut. Untuk setiap petunjuk yang disediakan selama pertandingan, Watson harus  melakukan tugas berikut dalam waktu kurang dari tiga detik
  • Mendekonstruksi petunjuk yang disediakan dalam kata-kata dan frase 
  • Membangun hubungan gramatikal antara kata-kata dan frase
  • Membuat satu set istilah yang serupa untuk digunakan dalam pencarian  Watson untuk respon Gunakan Hadoop 
  • untuk mengkoordinasikan pencarian tanggapan di terabyte data Menentukan  kemungkinan tanggapan dan menetapkan kemungkinan mereka menjadi benar  Actuate bel
  • Memberikan respon sintaksis benar dalam bahasa Inggris. Di antara aplikasi lain, Watson mempunyai profesi medis untuk mendiagnosa  pasien dan memberikan rekomendasi pengobatan



 LinkedIn
LinkedIn adalah jaringan profesional online 250 juta pengguna di 200 negara  pada awal 2014 [5]. LinkedIn menyediakan beberapa layanan gratis dan  berbasis langganan, seperti perusahaan halaman informasi, lowongan  pekerjaan, pencarian bakat, grafik sosial kontak seseorang, berita pribadi  disesuaikan feed, dan akses ke kelompok-kelompok diskusi, termasuk  pengguna Hadoop kelompok.

 Yahoo! Pada 2012, Yahoo! telah salah satu yang terbesar mengumumkan  Hadoop penyebaran di 42.000 node di beberapa cluster memanfaatkan 350  petabyte storage baku Aplikasi Hadoop Yahoo adalah sebagai berikut :
  • cari pembuatan indeks dan pemeliharaan 
  • halaman web optimasi konten web iklan optimasi 
  • penempatan Spam filter
  • analisis ad-hoc dan pengembangan model analitik


Sebelum menggelar Hadoop, butuh 26 hari untuk memproses bernilai tiga tahun  data log. Dengan Hadoop, waktu proses dikurangi menjadi 20 menit. Seperti disebutkan sebelumnya, paradigma MapReduce menyediakan sarana  untuk memecahkan tugas yang besar menjadi tugas yang lebih kecil,  menjalankan tugas secara paralel, dan mengkonsolidasikan output dari tugas  individu ke dalam hasil akhir MapReduce terdiri dari dua bagian-dasar langkah peta dan mengurangi  langkah-dirinci sebagai berikut :
  • Peta Berlaku operasi untuk beberapa data Menyediakan beberapa output 
  • Mengurangi Mengkonsolidasikan output menengah dari langkah-langkah  peta Menyediakan output akhir


Ilustrasi sederhana dari MapReduce adalah contoh jumlah kata yang tugas ini  adalah untuk hanya menghitung berapa kali setiap kata muncul dalam koleksi  dokumen
Makalah Advanced Analytics-Teknologi dan Alat: MapReduce dan Hadoop

Dalam contoh diatas, langkah peta mengurai teks string yang disediakan dalam  kata-kata individu dan memunculkan satu set pasangan kunci / nilai dalam  bentuk < kata, 1>. Untuk masing-masing kunci unik dalam contoh ini, kata -the  mengurangi langkah jumlah yang 1 nilai-nilai dan output < kata, menghitung>  pasangan kunci / nilai. Karena kata setiap muncul dua kali dalam garis  diberikan teks, mengurangi langkah menyediakan pasangan kunci / nilai dari < masing-masing, 2>.  

Perlu dicatat bahwa, dalam contoh ini, kunci asli, 1234, diabaikan dalam pengolahan

2.2.1 Apache Hadoop
Meskipun MapReduce adalah paradigma sederhana untuk memahami, itu tidak  mudah untuk diterapkan, terutama dalam sistem terdistribusi.  Pelaksana pekerjaan MapReduce (kode MapReduce dijalankan terhadap  beberapa data yang ditentukan) membutuhkan manajemen dan koordinasi dari 
beberapa kegiatan:
  • MapReduce pekerjaan harus dijadwalkan berdasarkan beban kerja sistem. Jobs  perlu dipantau dan dikelola untuk memastikan bahwa setiap kesalahan yang  ditemui sedang ditangani.
  • Peta langkah pengolahan input perlu dilakukan di seluruh sistem terdistribusi,  sebaiknya di mesin yang sama di mana data berada. 
  • Output menengah dari berbagai langkah peta perlu dikumpulkan dan diberikan  kepada mesin yang tepat untuk mengurangi eksekusi langkah. 
  • Output akhir harus dibuat tersedia untuk digunakan oleh pengguna lain, aplikasi  lain, atau mungkin yang lain pekerjaan MapReduce


Makalah Advanced Analytics-Teknologi dan Alat: MapReduce dan Hadoop

menggambarkan cluster Hadoop dengan sepuluh mesin dan penyimpanan satu  file besar yang Gambar 10.2 menggambarkan cluster Hadoop dengan sepuluh  mesin dan penyimpanan satu file besar yang membutuhkan tiga blok data  HDFS. Selanjutnya, file ini disimpan menggunakan replikasi tiga. Mesin-mesin  yang menjalankan NameNode dan NameNode sekunder dianggap Master node.  Karena DataNodes mengambil petunjuk mereka dari node master, mesin  menjalankan Master node. Karena DataNodes mengambil petunjuk mereka dari  node master, mesin menjalankan DataNodes disebut sebagai node pekerja.

Makalah Advanced Analytics-Teknologi dan Alat: MapReduce dan Hadoop
masing-masing, (1,1)> adalah pasangan kunci pertama / nilai diproses, diikuti  abjad < Untuk, (1)> dan sisanya dari sepasang kunci/ nilai sampai sepasang  kunci / nilai terakhir dilewatkan. The ( ) menunjukkan daftar nilai yang, dalam  hal ini, hanya sebuah array.

Makalah Advanced Analytics-Teknologi dan Alat: MapReduce dan Hadoop
Gambar 10.4 menggambarkan bagaimana combiner sebuah proses string tunggal.

Makalah Advanced Analytics-Teknologi dan Alat: MapReduce dan Hadoop
Sebagai contoh yang lebih praktis, pengguna bisa menggunakan partitioner  untuk memisahkan output ke file terpisah untuk setiap tahun kalender untuk analisis selanjutnya Sebagai contoh, jika beberapa tombol yang diketahui terkait dengan sebagian  besar data, mungkin berguna untuk memastikan bahwa tombol ini pergi untuk memisahkan pengecil untuk  mencapai kinerja lebih baik secara keseluruhan.

2.2.2 Hadoop
Hadoop adalah teknologi yang dibuat dari sebuah artikel atau paper. Paper ini di bawakan oleh Google untuk menggambarkan Big Data yang mereka gunakan untuk menampung data mereka yang sangat besar. Jadi, Google menginspirasi lahirnya Hadoop. Bedanya Big Data Google tidak bersifat open source sementara Hadoop open source.
Hadoop disini disebut lebih dari sekedar software atau perangkat lunak. Hadoop adalah sekumpulan software yang saling bekerja sama untuk mengolah data. Bisa disebut Hadoop adalah sebuah ekosistem yang terdiri dari software software yang bekerja sama

Mengembangkan dan Pelaksana Program Hadoop MapReduce
Pendekatan umum untuk mengembangkan program Hadoop MapReduce  adalah untuk menulis kode Java menggunakan alat Interaktif Development Environment (IDE) seperti Eclipse [17]. Dibandingkan dengan editor plaintext atau antarmuka baris perintah (CLI), alat IDE menawarkan pengalaman yang lebih baik untuk menulis, mengkompilasi, tes, dan kode debug. Sebuah program MapReduce khas terdiri dari tiga file Java: masing masing untuk kode driver, kode peta, dan mengurangi kode. , Java file-file  tambahan dapat ditulis untuk combiner atau partitioner kustom, jika berlaku. Kode Java dikompilasi dan disimpan sebagai Java Archive (JAR) file.

Alternatif kedua adalah dengan menggunakan pipa Hadoop
mekanisme yang menggunakan dikompilasi C ++ kode untuk peta dan mengurangi fungsi. Sebuah keuntungan dari menggunakan C ++ adalah perpustakaan numerik yang luas tersedia untuk memasukkan dalam kode Untuk bekerja secara langsung dengan data di HDFS, salah satu pilihan adalah dengan menggunakan API Java yang disediakan dengan Apache Hadoop. API ini memungkinkan membaca dan menulis ke file data HDFS luar paradigma MapReduce khas [20]. Pendekatan seperti ini mungkin berguna ketika mencoba untuk debug pekerjaan MapReduce dengan memeriksa input data atau ketika tujuannya adalah untuk mengubah data HDFS sebelum menjalankan pekerjaan MapReduce.

2.2.3 The Hadoop Ekosistem
Makalah Advanced Analytics-Teknologi dan Alat: MapReduce dan Hadoop
  • Hadoop HDFS, sebuah sistem file terdistribusi
  • Hadoop MapReduce, sebuah model algoritma untuk pengelolaan data skala besar dengan komputasi secara terdistribusi
  • Hadoop YARN, sebuah platform resource-management yang bertanggung jawab untuk mengelola resource dalam kluster dan melakukan scheduling
  • Hadoop Common, berisi libraries dan utilities yang dibutuhkan oleh modul Hadoop lainnya


2.3 Apache pig 
Apache pig terdiri dari bahasa aliran data, Pig Latin, dan lingkungan untuk mengeksekusi kode pig. Manfaat utama dari menggunakan Pig adalah untuk memanfaatkan kekuatan MapReduce dalam sistem terdistribusi, sementara menyederhanakan tugas mengembangkan dan melaksanakan pekerjaan MapReduce.
Dalam kebanyakan kasus, itu adalah transparan kepada pengguna bahwa pekerjaan MapReduce berjalan di latar belakang saat perintah pig dieksekusi.
Hadoop menyederhanakan pengembangan kode terhadap data dalam HDFS dan membuat MapReduce lebih mudah diakses oleh khalayak yang lebih besar dasar-dasar penggunaan pig termasuk memasuki lingkungan eksekusi Babi dengan mengetikkan babi pada prompt perintah dan kemudian memasuki urutan garis instruksi Pig.

Contoh dari perintah Pig-spesifik yang ditampilkan di sini:
$pig mendengus> catatan = LOAD '/user/customer.txt' AS
(Cust_id: INT, first_name: CHARARRAY, last_name:
CHARARRAY, EMAIL_ADDRESS: CHARARRAY); catatan
mendengus> filtered_records = FILTER
BY pertandingan EMAIL_ADDRESS '* @ isp.com.'; mendengus> STORE
filtered_records INTO '/ user / isp_customers'; mendengus> berhenti $

2.4 Hive
Mirip dengan Pig, Apache Hive memungkinkan pengguna untuk mengolah data tanpa secara eksplisit menulis kode MapReduce. Satu perbedaan kunci Pig adalah bahwa bahasa Hive, HiveQL (Hive Query Language), menyerupai Structured Query Language (SQL) daripada bahasa scripting. Pertimbangkan untuk menggunakan Hive ketika kondisi berikut:
• Data mudah cocok menjadi struktur tabel.
• Data yang sudah di HDFS. (Catatan: file Non-HDFS dapat dimuat ke meja Hive.) Pengembang
• Nyaman dengan pemrograman SQL dan query.
• Ada keinginan untuk dataset partisi berdasarkan waktu. (Sebagai contoh, update setiap hari ditambahkan ke meja Hive.) Batch processing diterima.

Contoh:
sarang> membuat pelanggan tabel (
bigint cust_id, first_name tali, last_name String,
EMAIL_ADDRESS string) format baris dibatasi
bidang diakhiri oleh '\ t';

2.5 HBase
Tidak seperti Pig dan Hive, yang ditujukan untuk aplikasi batch, Apache HBase mampu memberikan real-time membaca dan menulis akses ke dataset dengan miliaran baris dan jutaan kolom. Untuk menggambarkan perbedaan antara HBase dan database relasional, bagian ini menyajikan rincian yang cukup tentang pelaksanaan dan penggunaan HBase.

2.6 HBase Arsitektur dan Model data
HBase adalah menyimpan data yang dimaksudkan untuk didistribusikan di cluster node. Seperti Hadoop dan banyak proyek Apache terkait, HBase dibangun di atas HDFS dan mencapai kecepatan akses real-time dengan berbagi beban kerja lebih banyak node di cluster didistribusikan. Tabel HBase terdiri dari baris dan kolom. Namun, meja HBase juga memiliki dimensi ketiga, versi, untuk mempertahankan nilai-nilai yang berbeda dari baris dan kolom persimpangan dari waktu ke waktu. contoh sederhana akan bahwa untuk setiap pelanggan online yang diberikan,  beberapa alamat pengiriman dapat disimpan. Jadi, baris akan ditunjukkan dengan nomor pelanggan. Satu kolom akan memberikan alamat pengiriman.

Nilai dari alamat pengiriman akan ditambahkan di persimpangan jumlah  pelanggan dan kolom alamat pengiriman, bersama dengan timestamp yang  sesuai dengan ketika pelanggan terakhir digunakan alamat pengiriman ini.

Seperti disebutkan, HBase dibangun di atas HDFS. HBase menggunakan struktur kunci / nilai untuk menyimpan isi dari tabel HBase. Setiap nilai adalah data yang akan disimpan di persimpangan baris, kolom, dan versi. Setiap kunci terdiri dari unsur-unsur berikut :
- Panjang baris
- Row (kadang-kadang disebut baris kunci) panjang
- Kolom keluarga
- Kolom keluarga
- kolom kualifikasi jenis
- Versi Key

2.7 Mahout 
Mayoritas bab ini telah difokuskan pada pengolahan, penataan, dan menyimpan  dataset besar menggunakan Apache Hadoop dan berbagai bagian dari ekosistem. Mahout menyediakan kode Java yang mengimplementasikan algoritma untuk beberapa teknik dalam tiga kategori Berikut :
- Regresi logistik hutan
- Naïve Bayes Acak
- model Markov tersembunyi Clustering:
- Canopy pengelompokan
- K-cara mengelompokkan
- Fuzzy k-means
- Ekspektasi maksimisasi (EM) Pemberi saran / kolaboratif filtering:
- Pemberi saran Nondistributed
- Didistribusikan berdasarkan-item filtering kolaboratif

2.8 NoSQL
NoSQL (Tidak hanya Structured Query Language) adalah istilah yang digunakan untuk menggambarkan orang-orang menyimpan data yang diterapkan pada data yang tidak terstruktur. Seperti dijelaskan sebelumnya, HBase adalah suatu alat yang ideal untuk menyimpan kunci / nilai dalam keluarga kolom. Secara umum, kekuatan menyimpan data NoSQL adalah bahwa sebagai ukuran data tumbuh, solusi dilaksanakan dapat skala dengan hanya menambahkan mesin tambahan untuk sistem terdistribusi.

Berbeda dengan SQL Database, dari namanya saja sudah bisa ditebak bahwa nosql database adalah kebalikan dari sql database. Tidak relational / tanpa relation. Database nosql atau yang biasa disebut NoSQL database / cloud database merupakan penyimpanan data / database yang tidak terstruktur.

BAB III
PENUTUPAN
Bab ini meneliti paradigma MapReduce dan penerapannya dalam analisis Big Data. Secara khusus, itu meneliti pelaksanaan MapReduce di Apache Hadoop. Kekuatan MapReduce diwujudkan dengan penggunaan Hadoop Distributed File System (HDFS) untuk menyimpan data dalam sistem terdistribusi.

Bab ini diperiksa beberapa proyek Apache dalam ekosistem Hadoop. Dengan menyediakan bahasa pemrograman tingkat tinggi, Apache Babi dan Hive menyederhanakan pengembangan kode oleh masking logika MapReduce yang mendasari untuk melakukan tugas umum pengolahan data seperti penyaringan, bergabung dataset, dan data restrukturisasi

HBase adalah salah satu contoh dari NoSQL (Tidak hanya Structured Query Language) menyimpan data yang sedang dikembangkan untuk mengatasi Big Data tertentu menggunakan kasus. Memelihara dan melintasi grafik jaringan sosial adalah contoh dari database relasional tidak menjadi pilihan terbaik sebagai menyimpan data.


Source :
Buku DATA SCIENCE AND BIG DATA ANALYTICS
Penerbit EMC Education Services

LINK DOWNLOAD


Subscribe to receive free email updates:

0 Response to "Makalah Advanced Analytics-Teknologi dan Alat: MapReduce dan Hadoop"

Posting Komentar