Pengertian – Apa yang dimaksud dengan Hadoop Distributed File System (HDFS)?
Sistem File Terdistribusi Hadoop (HDFS) adalah sistem file terdistribusi yang berjalan pada perangkat keras standar atau low-end. Dikembangkan oleh Apache Hadoop, HDFS bekerja seperti sistem file terdistribusi standar tetapi memberikan throughput data yang lebih baik dan akses melalui algoritma MapReduce, toleransi kesalahan tinggi dan dukungan asli dari set data besar.
Deskripsi Sistem File Terdistribusi Hadoop (HDFS)
HDFS menyimpan sejumlah besar data yang ditempatkan di beberapa mesin, biasanya dalam ratusan dan ribuan node yang terhubung secara bersamaan, dan memberikan keandalan data dengan mereplikasi setiap instance data sebagai tiga salinan berbeda – dua dalam satu kelompok dan satu di yang lain. Salinan ini dapat diganti jika terjadi kegagalan.
Arsitektur HDFS terdiri dari cluster, yang masing-masing diakses melalui alat perangkat lunak NameNode tunggal yang diinstal pada mesin terpisah untuk memantau dan mengelola sistem file cluster dan mekanisme akses pengguna. Mesin lain memasang satu instance DataNode untuk mengelola penyimpanan cluster.
Karena HDFS ditulis dalam Java, ia memiliki dukungan asli untuk antarmuka pemrograman aplikasi Java (API) untuk integrasi dan aksesibilitas aplikasi. Ini juga dapat diakses melalui browser Web standar.