Mengenal Apa Itu Data Warehouse

Apa Itu Data Warehouse?

Data Warehouse (Gudang Data) adalah sistem yang menggabungkan sejumlah besar data dari berbagai sumber (misalnya file log aplikasi, sistem transaksional, database relasional, dll) secara reguler menjadi penyimpanan data tunggal, terpusat, dan konsisten untuk mendukung analisis data, data mining, artificial intelligence (AI), dan machine learning. Gudang data dirancang untuk mendukung aktivitas business intelligence (BI) yang menggunakan analisis pada data bisnis perusahaan.

Data dan analisis telah menjadi sangat diperlukan bagi perusahaan untuk tetap kompetitif. Para pebisnis mengandalkan laporan, dasbor, dan alat analisis untuk mengekstrak pengetahuan dari data mereka, memantau kinerja bisnis, dan membuat keputusan. Gudang data memperkuat laporan, dasbor, dan alat analisis dengan menyimpan data secara efisien untuk meminimalkan input dan output (I/O) data dan mengirimkan hasil kueri dengan cepat ke ratusan atau ribuan pengguna secara bersamaan.


Manfaat Data Warehouse

Gudang data menawarkan manfaat yang memungkinkan perusahaan menganalisis sejumlah besar varian data dan mengekstrak nilai signifikan darinya. Kemampuan analisisnya memungkinkan perusahaan memperoleh pengetahuan bisnis yang berharga dari data mereka untuk membuat keputusan yang lebih tepat. Seiring waktu, juga membangun catatan historis yang berharga dan dapat dianggap sebagai sumber fakta bagi perusahaan. Sistemnya memungkinkan perusahaan menjalankan analisis yang kuat pada data historis bervolume besar dengan cara yang tidak dapat dilakukan oleh database standar.

Manfaat data warehouse meliputi:

  • Pengambilan keputusan yang diinformasikan
  • Data dari banyak sumber yang terkonsolidasi
  • Analisis data historis
  • Kualitas, konsistensi, dan akurasi data
  • Pemisahan pemrosesan analitik dari database transaksional sehingga meningkatkan kinerja kedua sistem

Komponen Data Warehouse

Data warehouse biasanya mencakup komponen-komponen berikut:

  • Sebuah database relasional untuk menyimpan dan mengelola data
  • Sebuah solusi ekstraksi, pemuatan, dan transformasi (Extraction, Loading, and Transformation) dalam hal menyiapkan data untuk analisis
  • Analisis statistik, pelaporan, dan kemampuan data mining
  • Alat analisis klien untuk memvisualisasikan dan menyajikan data kepada pengguna bisnis
  • Aplikasi analisis yang lebih canggih dan menghasilkan informasi yang dapat ditindaklanjuti dengan menerapkan algoritme ilmu data dan kecerdasan buatan (AI)

Merancang Data Warehouse

Saat perusahaan mulai merancang sebuah gudang data maka harus dimulai dengan mendefinisikan kebutuhan spesifik bisnisnya, menyepakati ruang lingkup, dan menyusun desain konseptual. Setelah itu, perusahaan dapat membuat desain fisik dan logis untuk gudang data. Desain logis meliputi hubungan antara objek, dan desain fisik meliputi cara terbaik untuk menyimpan dan mengambil objek. Desain fisik juga menggabungkan transportasi, backup, dan recovery.

Setiap desain data warehouse harus menangani hal-hal berikut:

  • Konten data tertentu
  • Hubungan di dalam dan di antara kelompok data
  • Lingkungan sistem yang akan mendukung gudang data
  • Jenis-jenis transformasi data yang dibutuhkan
  • Frekuensi penyegaran data

Faktor utama dalam desain adalah kebutuhan end user. Sebagian besar end user tertarik untuk melakukan analisis dan melihat data secara gabungan, bukan sebagai transaksi individual. Namun, seringkali end user tidak benar-benar tahu apa yang mereka inginkan sampai kebutuhan tertentu muncul. Dengan demikian, proses perancangan seharusnya mencakup eksplorasi yang cukup untuk mengantisipasi kebutuhan. Akhirnya, desain gudang data harus memungkinkan ruang untuk ekspansi dan pengembangan untuk mengimbangi kebutuhan end user yang terus berkembang.

Gudang data yang dirancang dengan baik akan melakukan kueri dengan sangat cepat, memberikan throughput data yang tinggi, dan menyediakan fleksibilitas yang cukup untuk end user memotong atau mengurangi volume data agar pemeriksaan lebih rinci sehingga dapat memenuhi berbagai permintaan baik pada level tinggi atau pada level yang sangat mendetail. Gudang data berfungsi sebagai pondasi fungsional untuk lingkungan BI middleware yang memberi end user laporan, dasbor, dan antarmuka lainnya.


Arsitektur Data Warehouse

Secara umum, arsitektur gudang data terdiri dari tiga tingkatan yang terdiri dari:

  • Tingkat bawah. Terdiri dari server gudang data, biasanya sistem database relasional yang mengumpulkan, membersihkan, dan mengubah data dari berbagai sumber melalui proses yang dikenal sebagai Ekstrak, Transformasi, dan Load (ETL) atau proses yang dikenal sebagai Ekstrak, Load, dan Transformasi (ELT).
  • Tingkat menengah. Terdiri dari mesin yang digunakan untuk mengakses dan menganalisis data, yaitu server OLAP (online analytical processing) yang memungkinkan kecepatan kueri cepat. Tiga jenis model OLAP dapat digunakan dalam tingkatan ini, yang dikenal sebagai ROLAP, MOLAP dan HOLAP. Tipe model OLAP yang digunakan bergantung pada tipe sistem database yang ada.
  • Tingkat atas: Tingkat atas diwakili oleh beberapa jenis antarmuka front-end yang menyajikan hasil melalui pelaporan, analisis, dan alat mining. Ini memungkinkan end user untuk melakukan analisis data ad-hoc pada data bisnis mereka.

Data disimpan dalam dua cara: 1) data yang sering diakses, disimpan dalam penyimpanan yang sangat cepat (misalnya drive SSD) dan 2) data yang jarang diakses, disimpan di objek penyimpanan yang relatif murah. Gudang data secara otomatis akan memastikan bahwa data yang sering diakses dipindahkan ke penyimpanan "cepat" jadi kueri kecepatan dioptimalkan.


Karakteristik Data Warehouse

Empat karakteristik unik (dijelaskan oleh ilmuwan komputer William Inmon, yang dianggap sebagai bapak gudang data) memungkinkan gudang data memberikan manfaat menyeluruh ini. Menurut definisi ini, karakteristik gudang data adalah sbb:

  • Berorientasi pada subjek. Gudang data dapat menganalisis data tentang subjek atau area fungsional tertentu (misalnya penjualan).
  • Terintegrasi. Gudang data menciptakan konsistensi di antara tipe data yang berbeda dari sumber yang berbeda.
  • Tidak mudah menguap. Setelah data berada di gudang data, data tersebut stabil dan tidak berubah.
  • Variasi Waktu. Analisis gudang data melihat perubahan dari waktu ke waktu.

Perkembangan Data Warehouse

Konsep data warehousing diperkenalkan pada tahun 1988 oleh peneliti IBM, yaitu Barry Devlin dan Paul Murphy. Tujuannya adalah untuk membantu aliran data dari sistem operasional ke dalam sistem pendukung keputusan. Saat itu gudang data membutuhkan redundansi dalam jumlah yang sangat besar. Sebagian besar organisasi memiliki beberapa sistem pendukung keputusan yang melayani berbagai pengguna. Meskipun sistem pendukung keputusan menggunakan banyak data yang sama, untuk pengumpulan, pembersihan, dan integrasi data sering kali direplikasi untuk setiap environment sistem.

Saat menjadi lebih efisien, gudang data kemudian berkembang dari penyimpanan informasi yang mendukung platform BI tradisional menjadi infrastruktur analitik yang luas dan mendukung berbagai macam aplikasi, seperti analisis operasional dan manajemen kinerja. Gudang data telah berkembang dari masa ke masa untuk memberikan nilai tambah bagi perusahaan. Saat ini, AI dan machine learning mengubah hampir setiap industri, layanan dan aset perusahaan termasuk gudang data. Perluasan big data dan penerapan teknologi digital baru mendorong perubahan dalam persyaratan dan kemampuan gudang data.

Sistem gudang data telah menjadi bagian dari solusi business intelligence (BI) selama lebih dari tiga dekade, dan telah berkembang belakangan ini dengan munculnya tipe data dan metode hosting data yang baru seiring dengan sistem komputer yang menjadi lebih kompleks dan penanganan jumlah data yang terus meningkat. Secara tradisional, gudang data dihosting di tempat (sering kali di komputer mainframe) yang fungsinya difokuskan pada penggalian data dari sumber lain, membersihkan dan menyiapkan data, serta memuat dan memelihara data dalam database relasional. Yang terbaru, gudang data bisa saja dihosting di dedicated appliance atau di cloud. Sebagian besar gudang data telah menambah kemampuan analisis dan visualisasi data serta alat presentasi.


Cloud Data Warehouse

Cloud Data Warehouse adalah gudang data yang menggunakan cloud untuk menyerap dan menyimpan data dari sumber data yang berbeda. Gudang data awalnya dibangun di server lokal yang masih memiliki banyak keuntungan sampai saat ini. Dalam beberapa kasus, dapat menawarkan peningkatan tata kelola, keamanan, dan kecepatan. Namun, gudang data jenis ini memerlukan perkiraan yang kompleks dalam menentukan cara menskalakan gudang data untuk kebutuhan masa depan. Mengelola gudang data ini juga bisa jadi hal yang rumit sedangkan di sisi lain, terdapat beberapa kelebihan dari Cloud Data Warehouse berupa:

  • Fleksibilitas, dengan komputasi dan penyimpanan terpisah
  • Skalabilitas, untuk menangani kebutuhan komputasi atau penyimpanan
  • Kemudahan penggunaan
  • Kemudahan manajemen
  • Penghematan biaya

Gudang data ini dapat dikelola sepenuhnya dan dikendalikan sendiri, memastikan bahwa bahkan para pemula pun dapat membuat dan menggunakan gudang data hanya dengan beberapa klik. Selain itu, sebagian besar gudang data ini mengikuti model pay-as-you-go, yang memberi penghematan biaya tambahan bagi pelanggan.

Cloud Data Warehouse menawarkan karakteristik dan manfaat yang sama dengan gudang data di server lokal tetapi dengan manfaat tambahan dari cloud computing seperti fleksibilitas, skalabilitas, kemudahan, keamanan, dan pengurangan biaya. Gudang data ini memungkinkan perusahaan untuk fokus hanya pada penggalian nilai dari data mereka daripada harus membangun dan mengelola infrastruktur hardware dan software untuk mendukung gudang data.


Gudang Data Modern

Pengguna yang berbeda di dalam organisasi, baik itu bagian dari tim TI, teknik data, analisis bisnis, atau ilmu data, memiliki kebutuhan gudang data yang berbeda.

Arsitektur data modern memenuhi kebutuhan yang berbeda tersebut dengan menyediakan cara untuk mengelola semua tipe data, beban kerja, dan analisis. Terdiri dari pola arsitektur dengan komponen-komponen dibutuhkan yang terintegrasi untuk bekerja sama dalam keselarasan dengan praktik-praktik terbaik industri. Gudang data modern meliputi:

  • Database terkonvergensi yang menyederhanakan pengelolaan semua tipe data dan menyediakan berbagai cara untuk menggunakan data
  • Layanan mandiri penyerapan data dan layanan transformasi
  • Dukungan untuk SQL, machine learning, grafik, dan pemrosesan spasial
  • Beberapa opsi analitik yang memudahkan penggunaan data tanpa memindahkannya
  • Manajemen otomatis untuk penyediaan sederhana, penskalaan, dan administrasi

Gudang data modern dapat secara efisien menyederhanakan alur kerja data dengan cara yang tidak dapat dilakukan oleh gudang data tradisional. Ini berarti bahwa setiap orang, mulai dari analis dan teknisi data hingga data scientist dan tim TI, dapat melakukan pekerjaan mereka dengan lebih efektif dan melakukan pekerjaan inovatif yang memajukan perusahaan, tanpa penundaan dan kerumitan yang tak terhitung jumlahnya.

Keamanan Online Data Storage

Banyak penyedia layanan Online Data Storage yang telah berkembang sampai saat ini mengklaim penyimpanan data yang aman. Tapi, apakah layanan tersebut cukup aman untuk menyimpan informasi penting secara online tanpa adanya masalah?

Perangkat seperti hard disk dan DVD telah lama digunakan untuk menyimpan data. Penyimpanan data merupakan kebutuhan agar dapat mengambil informasi yang diperlukan nanti, kapan saja. Untuk memperoleh data yang diperlukan, penting untuk menyimpan data di tempat yang aman dan terlindungi. Hard disk dan DVD merupakan contoh pilihan yang baik, namun juga memiliki beberapa kekurangan. Perangkat penyimpanan jenis ini dapat rusak atau hilang, sehingga mengakibatkan kehilangan data. Untuk mengatasi masalah ini, penyedia layanan penyimpanan data telah menghadirkan Online Data Storage untuk melindungi dan menyimpan sejumlah besar data yang dihasilkan di era digital ini. Perangkat penyimpanan offline tetap tersedia, namun banyak yang menganggap bahwa menyimpan data secara online merupakan cara yang sangat aman untuk menyimpan data. Meski begitu kita tetap dapat mempertanyakan keamanan penyimpanan data secara online agar yakin bahwa jika memilih media penyimpanan ini, data kita akan terjamin aman.

Mengapa Online Data Storage Dianggap Aman?


Dianggap lebih aman daripada penyimpanan offline karena beberapa langkah yang telah diambil penyedia layanan untuk menjamin keamanan data. Langkah-langkah keamanan ini jelas tidak tersedia pada penyimpanan data offline. Beberapa langkah keamanan yang dapat diambil oleh penyedia layanan adalah sebagai berikut:

  • Enkripsi File Pra-unggah. File yang berisi data disimpan di server. Sebelum diunggah ke server, setiap file dienkripsi menggunakan sebuah algoritma. Algoritma ini diturunkan menggunakan sebuah 'key', yang berasal dari kata sandi yang dibuat klien untuk mengakses file. Algoritma yang digunakan cukup kompleks dan tidak dapat dipecahkan dengan mudah untuk bisa mendapatkan akses ke data yang tersimpan di dalam file. Ketika enkripsi selesai, file diunggah ke server sehingga kemudian dapat diakses dari mana saja di dunia ini melalui Internet. Untuk membuka file online yang sebelumnya dienkripsi, kata sandi harus dimasukkan. Jika kata sandi tidak cocok dengan yang telah ditentukan oleh klien, file akan gagal dibuka. Dengan demikian, hanya klien yang memiliki kata sandi yang tepat dapat membuka file dan mengambil data yang disimpan, bukan orang lain.
  • SSL Encryption untuk Transfer Data. Secure Socket Layer (SSL) adalah teknik enkripsi yang digunakan sebagai standar untuk mentransfer data dari komputer klien ke server dan sebaliknya. Langkah keamanan ini juga digunakan untuk komunikasi web. Dalam teknik ini, sebuah perangkat lunak diinstal masing-masing pada komputer klien dan server sehingga membentuk hubungan antara keduanya. Ketika data ditransfer dari komputer klien, server mengidentifikasinya dan membentuk koneksi aman di antara keduanya agar dapat memfasilitasi transfer data tanpa gangguan tanpa kehilangan apapun. Peretas umumnya mencuri informasi selama transfer data.  Namun, dengan adanya SSL kemungkinan tersebut sangat diminimalkan.
  • Server-Side Encryption. Jika enkripsi file pra-unggah tidak dimungkinkan di sisi klien karena kecepatan koneksi yang buruk, penyedia layanan masih memiliki opsi Server-Side Encryption. Dalam hal ini, enkripsi file data dilakukan setelah disimpan di server. Kata sandi yang dihasilkan oleh enkripsi pada sisi server ini tersedia dengan klien dan administrator pusat data. Jika penyedia layanan memang dapat diandalkan, kata sandi hanya akan tersedia untuk mereka yang perlu mengetahuinya dan tentunya klien.
  • Keamanan di Pusat Data. Pusat data adalah tempat yang mengelola semua data yang disimpan secara online. Ada beberapa server dalam satu pusat data. Setiap server biasanya tertutup, terkunci dan dikendalikan dengan nama pengguna dan kata sandi. Tidak semua server dapat diakses bahkan oleh administrator sekalipun. Banyak fitur keamanan lainnya seperti kartu akses, kode pintu 6 digit, pemindai tangan, dan pembaca sidik jari digunakan untuk memastikan sebuah lingkungan yang aman untuk data yang disimpan.
  • Penggunaan RAID. Redundant Array of Independent Disks (RAID) disiapkan di pusat data yang sangat aman. RAID membantu dalam mengambil data dari hard disk yang rusak. Ketika hard disk rusak, semua data yang tersimpan ditransfer ke hard disk baru dengan bantuan sebuah algoritma. Dengan demikian, data klien tidak hilang dan keamanan tetap terjaga.

Seiring dengan adanya fitur keamanan berteknologi tinggi ini, pusat data juga dilengkapi kesiapan untuk menangani situasi seperti kebakaran, bencana alam, dll. Setelah melihat langkah-langkah keamanan seperti ini, sebagian dari kita tentunya dapat dengan yakin menganggap bahwa menyimpan data secara online cukup aman. Namun, kita tidak dapat sepenuhnya mengesampingkan kemungkinan pelanggaran keamanan atau kehilangan data karena memang sulit untuk mencapai keamanan 100%. Agar lebih aman, sebaiknya dibuat 2 backup data sehingga bahkan jika yang satu rusak atau hilang, masih ada backup lainnya.