Welcome to Bimacipta!

Pemrosesan Big Data

Published on Nov 28, 2023

Big Data adalah aplikasi data-intensif atau data-sentris di mana analisis data heterogen dengan volume besar. Dibutuhkan sistem khusus untuk mendukung pengelolaan dan pemrosesan data ini, yaitu Sistem Pemrosesan Big Data.

Karakteristik big data: volume yang sangat besar (petabyte hingga zettabyte), variety (data terstruktur maupun tak terstruktur), velocity (data yang tiba dengan kecepatan tinggi), dan veracity (data berasal dari berbagai sumber dengan kualitas yang bervariasi).

Arsitektur big data terdiri dari: lapisan penyimpanan terdistribusi, lapisan pemrosesan data tanpa overhead database, lapisan akses data (NoSQL, streaming), dan lapisan analitik data.

1. Sistem Penyimpanan Terdistribusi
Big data bergantung pada penyimpanan terdistribusi dengan data disimpan dalam file/objek yang didistribusikan pada node cluster. Ada dua solusi utama: penyimpanan objek dan sistem file terdistribusi.

Penyimpanan objek menyimpan objek dengan data, metadata, dan ID unik. Memudahkan pemindahan objek antar lokasi terdistribusi. Contoh sistem file terdistribusi adalah Google File System (GFS) yang digunakan oleh banyak layanan Google.

GFS didesain untuk kinerja, skalabilitas, toleransi kesalahan, dan ketersediaan. Mengelola file sebagai trie direktori. Mendukung operasi file dasar dan record append. Implementasi open source GFS adalah HDFS.

2. Kerangka Pemrosesan Big Data
MapReduce memudahkan pemrosesan paralel dengan hanya menyediakan fungsi map dan reduce. Pemrogram mengimplementasi fungsi ini, sistem menjadwalkan dan menyinkronkan tugasnya.

Keuntungan MapReduce: fleksibilitas, skalabilitas dengan eksekusi data paralel, efisiensi tanpa perlu memuat data ke database, dan toleransi kesalahan dengan pembagian tugas kecil.

Spark memperbaiki kelemahan MapReduce dengan dataset terdistribusi elastis (RDD) untuk berbagi data antar iterasi komputasi, menghindari penulisan ulang ke disk.

3. Bahasa Tingkat Tinggi untuk MapReduce
Dibangun bahasa tingkat tinggi deklaratif (HiveQL, JAQL) atau prosedural (Pig Latin, Sawzall).

4. Manajemen Data Aliran (Stream)
Sistem manajemen data aliran (DSMS) dan sistem pemrosesan aliran data (DSPS) diperlukan untuk aplikasi yang menghasilkan data dalam aliran tak terbatas, seperti sensor jaringan dan IoT.

Asumsi model aliran data: data dihasilkan terus-menerus dalam urutan tertentu, kueri persisten tetap aktif dalam waktu lama, panjang aliran data tak terbatas atau tidak diketahui.

DSMS menyediakan fungsionalitas seperti DBMS termasuk bahasa kueri. DSPS tidak memiliki fungsionalitas DBMS penuh. DSMS awal seperti STREAM bersifat single machine, DSPS modern seperti Storm dan Spark Streaming terdistribusi.

Operator streaming umum: seleksi, agregasi, multiplexing/demultiplexing, penambangan pola, join, windowed queries.

5. Danau Data (Data Lakes)
Teknologi big data memungkinkan penyimpanan dan analisis data dalam format aslinya, terstruktur maupun tak terstruktur. Disebut danau data (data lakes) untuk membedakan dengan data warehouse.

Keuntungan data lakes: schema-on-read (data dimuat dalam format asli), multiworkload (mendukung analisis batch hingga realtime), arsitektur hemat biaya dengan open source dan cluster shared-nothing.

Tags: Bigdata

<< Go back to the previous page