Hadoop Big Data

Setelah kita mengetahui teknologi Big Data, kita akan mengulas salah satu implementasi dari Big Data yang cukup terkenal. Hadoop atau nama resminya Apache Hadoop ialah teknologi yang dibentuk dari sebuah artikel atau paper. Paper ini di bawakan oleh Google untuk menggambarkan Big Data yang mereka gunakan untuk menampung data mereka yang sangat besar. Jadi, Google menginspirasi lahirnya Hadoop. Bedanya Big Data Google tidak bersifat open source sementara Hadoop open source.

Hadoop disini disebut lebih dari sekedar software atau perangkat lunak. Hadoop ialah sekumpulan software yang saling bekerja sama untuk mengolah data. Bisa disebut Hadoop ialah sebuah ekosistem yang terdiri dari software-software yang bekerja sama. Secara garis besar saya eksklusif membagi ekosistem menjadi beberapa bagian:

Inti atau core dari Hadoop: Ini ialah software utama yang menjadi dasar dari ekosistem. Software ini sanggup didapat di web site Apache Hadoop. Inti hadoop ini terdiri dari beberapa bab yaitu Hadoop Distributed File System (HDFS) dan Map Reduce. HDFS ialah daerah data-data dan file disimpan. Map Reducedisini ialah kegiatan untuk melaksanakan datamining dan pengolahan data lainnya dari file atau data yang disimpan di HDFS.

Data mining. Bagian ini tolong-menolong sanggup dikatan ialah API untuk menjalankan Map Reduce. Bagian ini mempermudah menciptakan dan menjalankan Map Reduce. Dengan demikian akan lebih gampang menciptakan dan menjalankan query. Contoh dari bab ini ialah Apache Pig dan Apache Hive

Database NoSQL (Not Only SQL). Bagian ini ada alasannya ialah proses map reduce biasanya makan waktu usang (karena data yang diproses baisanya besar) dan dilakukan secara periodik dan tidak sewaktu-waktu. Bagian ini memperlihatkan jalan masuk data yang lebih cepat dan sanggup sewaktu-waktu. Contoh NOSQL yang baisa digunakan ialah Apache HBase dan Apache Cassandra.

Bagian pendukung lain. bab ini padaumumnya dalah pendukung operasional Hadoop. Contohnya ialah Apache Zookeeper yang berfungsi untuk mengatur distribusi data dan pemrosesan data. Zookeeper digunakan oleh Apache HBase. Apache Flume berfungsi untuk mengatur input kedalam hadoop dari sumer data yang bersifat streaming contohnya dari Twitter. Ada banyak lagi software pendukung Hadoop ini. Seperti Apache Ambari, Apache Oozie dsbnya. Tidak mutlak harus menggunakan semuanya. Hanya tergantung kebutuhan saja.