Xây dựng nền tảng lưu trữ và phân tích dữ liệu lớn với apache hadoop và spark
Số 3 (78) 2022
Vũ Bảo Tạo, Đặng Văn Nam, Nông Thị Oanh, Hoàng Thị Ngát, Nguyễn Thị Ánh Tuyết
Tạp chí NCKH - Đại học Sao Đỏ, quý 3.2022
2022/10/03

Hiện nay, dữ liệu đã và đang trở nên ngày càng quan trọng. Dữ liệu là yếu tố quyết định, ảnh hưởng tới hầu hết các lĩnh vực như tài chính – ngân hàng, y tế, giáo dục, nông nghiệp, năng lượng…. Tốc độ sinh dữ liệu ngày càng nhanh với khối lượng ngày càng lớn và thuật ngữ Dữ liệu lớn (Big data) cũng ra đời. Dữ liệu lớn là một trong những công nghệ chủ chốt của cuộc Cách mạng công nghiệp 4.0; Tuy nhiên, việc lưu trữ và phân tích dữ liệu lớn cũng đòi hỏi những kiến thức và công nghệ phù hợp. Chúng ta không thể sử dụng các kỹ thuật lưu trữ và phân tích dữ liệu truyền thống với dữ liệu lớn được. Trong bài báo này, nhóm tác giả sẽ trình bày việc triển khai xây dựng nền tảng lưu trữ dữ liệu lớn sử dụng Apache Hadoop  trên một cụm (cluster) các máy tính và Apache Spark để phân tích dữ, trích rút các thông tin có ích (insights) từ tập dữ liệu lưu trữ trên các máy tính này.

Dữ liệu lớn; phân tích dữ liệu lớn; cụm máy tính; Hadoop; Spark.
Tải về

 

Các bài báo khác