SIKLUS HIDUP DATA ANALIS PPT
Nama Kelompok :
Agil Nurzizah (41155050160007)
Faisyal Fikry (41155050160006)
Muhammad Ginanjar Purwantara (41155050160187)
Putri Dewi Maharani (41155055180114)
Konsep kunci
1. Penemuan
2. Persiapan data
3. Perencanaan Model
4. Eksekusi Model
5. Mengkomunikasikan hasil-hasil
6. Operasional
Data Analytics Lifecycle dirancang khusus untuk Big Data dan proyek sains data, pekerjaan proyek dalam data analis dapat terjadi dalam beberapa tahap sekaligus
Bagi kebanyakan tahapan dalam siklus hidup data, gerakan dapat berupa depan atau ke belakang
Sebagai contoh, pada, tim serbaguna kecil, tujuh peran ini dapat dipenuhi dengan hanya 3 orang, tapi sebuah proyek yang sangat besar mungkin membutuhkan 20 orang atau lebih. Tujuh peran ikuti.
- Pengguna bisnis: Seseorang yang mengerti daerah domain dan biasanya manfaat dari hasil. Orang ini bisa berkonsultasi dan menyarankan tim proyek pada konteks proyek, nilai hasil, dan bagaimana output akan dioperasionalkan. Biasanya analis bisnis, manajer lini, atau ahli subjek jauh di dalam domain proyek memenuhi peran ini.
- Proyek Sponsor: Bertanggung jawab untuk asal-usul proyek. Menyediakan dorongan dan persyaratan untuk proyek dan mendefinisikan masalah bisnis inti. Umumnya menyediakan dana dan pengukur tingkat nilai dari output akhir dari tim kerja. Orang ini menetapkan prioritas untuk proyek dan menjelaskan output yang diinginkan.
- Manajer proyek: Memastikan bahwa tonggak kunci dan tujuan terpenuhi tepat waktu dan dengan kualitas yang diharapkan.
- Business Intelligence Analyst: Menyediakan keahlian domain bisnis berdasarkan pemahaman yang mendalam dari data, indikator kinerja utama (IKU), metrik kunci, dan intelijen bisnis dari perspektif pelaporan. Analis Business Intelligence umumnya membuat dashboard dan laporan dan memiliki pengetahuan tentang data feed dan sumber.
- Database Administrator (DBA): Ketentuan dan mengkonfigurasi lingkungan database untuk mendukung kebutuhan analisis dari tim kerja. Tanggung jawab ini mungkin termasuk menyediakan akses ke database kunci atau tabel dan memastikan tingkat keamanan yang sesuai berada di tempat yang berkaitan dengan repositori data.
- Data Engineer: Memanfaatkan keterampilan teknis yang mendalam untuk membantu dengan penyetelan SQL query untuk pengelolaan data dan ekstraksi data, dan menyediakan dukungan untuk konsumsi data ke dalam sandbox analitik, yang dibahas dalam Bab 1, “Pengantar Big data Analytics.” Sedangkan DBA set up dan mengkonfigurasi database yang akan digunakan, insinyur data yang mengeksekusi ekstraksi data aktual dan melakukan manipulasi data yang cukup besar untuk memfasilitasi analisis. Data insinyur bekerja sama dengan ilmuwan data untuk membantu data bentuk dalam cara yang tepat untuk analisis.
Data Scientist: Menyediakan keahlian subjek untuk teknik analisis, pemodelan data, dan menerapkan teknik analisis berlaku untuk masalah bisnis yang diberikan. Memastikan keseluruhan analisis tujuan terpenuhi. Desain dan mengeksekusi metode analisis dan pendekatan dengan data yang tersedia untuk proyek.
Gambar 2.1 peran kunci untuk proyek analisis sukses
PROSES DATA ANALIS
- Metode Ilmiah , digunakan selama berabad-abad, masih menyediakan kerangka kerja yang solid untuk memikirkan dan mendekonstruksi masalah menjadi bagian-bagian utama mereka. Salah satu ide yang paling berharga dari metode ilmiah berkaitan dengan membentuk hipotesis dan menemukan cara untuk menguji ide-ide.
- CRISP – DM, memberikan masukan yang berguna tentang cara untuk membingkai masalah analisis dan pendekatan populer untuk data mining.
- Tom Davenport DELTA Kerangka [5]: Kerangka DELTA menawarkan pendekatan untuk proyek-proyek data analisis, termasuk konteks keterampilan organisasi, dataset, dan keterlibatan kepemimpinan.
- Informasi Ekonomi Terapan (AIE), menyediakan kerangka kerja untuk mengukur berwujud dan memberikan panduan pada pengembangan model keputusan, kalibrasi perkiraan ahli, dan menurunkan nilai yang diharapkan dari informasi.
- Ketrampilan MAD, menawarkan masukan untuk beberapa teknik yang disebutkan di Fase 2-4 yang fokus pada perencanaan Model, pelaksanaan, dan temuan kunci.
Gambar 2.2 menyajikan gambaran dari Analytics Lifecycle data yang mencakup enam fase. Tim umumnya belajar hal-hal baru dalam fase yang menyebabkan mereka untuk kembali dan memperbaiki kerja yang dilakukan secara bertahap sebelum berdasarkan wawasan baru dan informasi yang telah ditemukan. Untuk alasan ini, Gambar 2.2 ditampilkan sebagai siklus. Panah melingkar menyampaikan gerakan berulang antara fase sampai anggota tim memiliki informasi yang cukup untuk bergerak ke tahap berikutnya. Info yang termasuk contoh pertanyaan untuk meminta untuk membantu memandu apakah masing-masing anggota tim memiliki informasi yang cukup dan telah membuat kemajuan cukup untuk pindah ke tahap berikutnya dari proses.
- Tahap 1-Discovery: Pada Tahap 1, tim belajar domain bisnis, termasuk sejarah yang relevan seperti apakah organisasi atau unit bisnis telah berusaha proyek serupa di masa lalu dari mana mereka dapat belajar. Tim menilai sumber daya yang tersedia untuk mendukung proyek dalam hal orang, teknologi, waktu, dan data. kegiatan penting dalam fase ini meliputi membingkai masalah bisnis sebagai tantangan analisis yang dapat dibahas dalam fase berikutnya dan merumuskan hipotesis awal (IHS) untuk menguji dan mulai belajar data.
- Tahap persiapan 2-Data: Tahap 2 membutuhkan kehadiran sandbox analitik, di mana tim dapat bekerja dengan data dan melakukan analisis selama proyek. tim perlu mengeksekusi ekstrak, beban, dan mengubah (ELT) atau ekstrak, transform dan load (ETL) untuk mendapatkan data ke kotak pasir. ELT dan ETL kadang-kadang disingkat ETLT. Data harus diubah dalam proses ETLT sehingga tim dapat bekerja dengan itu dan menganalisanya. Pada fase ini, tim juga perlu untuk membiasakan diri dengan data secara menyeluruh dan mengambil langkah-langkah untuk mengkondisikan data (Bagian 2.3.4).
- Tahap perencanaan 3-Model: Tahap 3 adalah perencanaan Model, di mana tim menentukan metode, teknik, dan alur kerja mereka berniat untuk mengikuti untuk tahap pembentukan model berikutnya. Tim mengeksplorasi data untuk belajar tentang hubungan antara variabel dan kemudian memilih variabel kunci dan model yang paling sesuai.
- Tahap bangunan 4 Model: Pada Tahap 4, tim mengembangkan dataset untuk tujuan pengujian, pelatihan, dan produksi. Selain itu, pada fase ini tim membangun dan mengeksekusi model berdasarkan kerja yang dilakukan dalam tahap perencanaan Model. Tim juga mempertimbangkan apakah alat yang ada akan cukup untuk menjalankan model, atau jika itu akan membutuhkan lingkungan yang lebih kuat untuk melaksanakan model dan alur kerja (misalnya, hardware cepat dan pemrosesan paralel, jika berlaku).
- Fase 5-Berkomunikasi hasil: Pada Tahap 5, tim, bekerja sama dengan pemangku kepentingan utama, menentukan apakah hasil proyek adalah keberhasilan atau kegagalan berdasarkan kriteria yang dikembangkan dalam Tahap 1. Tim harus mengidentifikasi temuan kunci, mengukur nilai bisnis, dan mengembangkan narasi untuk meringkas dan menyampaikan temuan kepada para pemangku kepentingan.
- Tahap 6-Mengoperasikan: Pada Tahap 6, tim memberikan laporan akhir, briefing, kode, dan dokumen teknis. Selain itu, tim dapat menjalankan proyek percontohan untuk menerapkan model dalam lingkungan produksi.
TAHAP PEMBUATAN DATA ANALIS
Discovery
Sumber Daya, Sebagai bagian dari tahap penemuan, tim perlu menilai sumber daya yang tersedia untuk mendukung proyek tersebut. Dalam konteks ini, sumber daya termasuk teknologi, alat, sistem, data, dan orang-orang. Selama scoping ini, mempertimbangkan alat yang tersedia dan teknologi tim akan menggunakan dan jenis sistem yang dibutuhkan untuk tahap selanjutnya untuk mengoperasionalkan model.
Framing Masalah, Pembingkaian masalah dengan baik sangatlah penting untuk keberhasilan proyek. Pembingkaian adalah proses yang menyatakan masalah analisis harus dipecahkan. Pada titik ini, itu adalah praktek terbaik untuk menuliskan pernyataan masalah dan berbagi dengan stakeholder kunci. Setiap anggota tim mungkin mendengar hal-hal yang sedikit berbeda terkait dengan kebutuhan dan masalah dan memiliki ide yang agak berbeda dari solusi yang mungkin.
Mengindetifikasi Steakholder, Langkah penting lainnya adalah untuk mengidentifikasi kunci stakeholder dan kepentingan mereka dalam proyek. Selama diskusi ini, tim dapat mengidentifikasi kriteria keberhasilan, risiko utama, dan pemangku kepentingan, yang harus mencakup siapa saja yang akan mendapatkan keuntungan dari proyek atau akan terpengaruh secara signifikan oleh proyek. Ketika mewawancarai para pemangku kepentingan, belajar tentang daerah domain dan riwayat yang relevan dari proyek analisis serupa. Sebagai
contoh, tim dapat mengidentifikasi hasil masing-masing pemangku kepentingan ingin dari proyek dan kriteria itu akan digunakan untuk menilai keberhasilan proyek.
Persiapan Data
Sendbox Data, persiapan data membutuhkan tim untuk mendapatkan sandbox analitik (juga biasa disebut sebagai ruang kerja), di mana tim dapat menjelajahi data tanpa mengganggu database produksi yang hidup. Pertimbangkan contoh di mana tim perlu untuk bekerja dengan data keuangan perusahaan. tim harus mengakses salinan data keuangan dari sandbox analitik daripada berinteraksi dengan versi produksi database utama organisasi, karena yang akan dikontrol ketat dan diperlukan untuk pelaporan keuangan.
Pertunjukan ETLT, pendekatan ELT memberikan akses tim untuk membersihkan data untuk menganalisis setelah data telah dimasukkan ke dalam database dan memberikan akses ke data dalam bentuk aslinya untuk menemukan nuansa tersembunyi dalam data. Pendekatan ini merupakan bagian dari alasan bahwa sandbox analitik dapat dengan cepat tumbuh besar. Tim mungkin ingin data yang bersih dan data agregat dan mungkin perlu menyimpan salinan data asli untuk membandingkan terhadap atau mencari pola tersembunyi yang mungkin ada dalam data sebelum tahap pembersihan. Proses ini dapat diringkas sebagai ETLT untuk mencerminkan fakta bahwa tim dapat memilih untuk melakukan ETL dalam satu kasus dan ELT di lain.
Belajar Data, Sebuah aspek penting dari proyek ilmiah data adalah untuk menjadi akrab dengan data itu sendiri. Menghabiskan waktu untuk belajar nuansa dataset memberikan konteks untuk memahami apa yang merupakan nilai wajar dan output yang diharapkan versus apa
Beberapa kegiatan dalam langkah ini mungkin tumpang tindih dengan penyelidikan awal dari dataset yang terjadi pada fase penemuan. Melakukan kegiatan ini menyelesaikan beberapa tujuan.
TAHAP PEMBUATAN DATA ANALIS
Perencanaan Model
Eksplorasi Data dan Seleksi Variable, tujuan dari eksplorasi data adalah untuk memahami hubungan antara variabel-variabel untuk menginformasikan pemilihan variabel dan metode dan memahami domain masalah. Seperti fase awal Analytics Lifecycle Data, adalah penting untuk menghabiskan waktu dan memusatkan perhatian pada pekerjaan persiapan ini untuk membuat fase berikutnya dari pemilihan model dan eksekusi lebih mudah dan lebih efisien. Sebuah cara yang umum untuk melakukan langkah ini melibatkan menggunakan alat untuk melakukan visualisasi data. Mendekati eksplorasi data dengan cara ini membantu tim dalam pratinjau data dan menilai hubungan antara variabel pada tingkat tinggi.
Seleksi Model, Untuk konteks buku ini, model dibahas secara umum. Dalam hal ini, model hanya mengacu pada abstraksi dari realitas. Satu mengamati peristiwa yang terjadi dalam situasi dunia nyata atau dengan data hidup dan upaya untuk membangun model yang meniru perilaku ini dengan seperangkat aturan dan kondisi. Dalam kasus pembelajaran mesin dan data mining, aturan dan ketentuan ini dikelompokkan menjadi beberapa set umum teknik, seperti klasifikasi, aturan asosiasi, dan clustering.
Alat Perencanaan Model
- Hadoop
- Alpine Miner
- Open Refine
Source :
Buku DATA SCIENCE AND BIG DATA ANALYTICS
Penerbit EMC Education Services
LINK DOWNLOAD
0 Response to "SIKLUS HIDUP DATA ANALIS PPT"
Posting Komentar