Hiện nay, dữ liệu đã và đang trở nên ngày càng quan trọng. Dữ liệu là yếu tố quyết định, ảnh hưởng tới hầu hết các lĩnh vực như tài chính – ngân hàng, y tế, giáo dục, nông nghiệp, năng lượng…. Tốc độ sinh dữ liệu ngày càng nhanh với khối lượng ngày càng lớn và thuật ngữ Dữ liệu lớn (Big data) cũng ra đời. Dữ liệu lớn là một trong những công nghệ chủ chốt của cuộc Cách mạng công nghiệp 4.0; Tuy nhiên, việc lưu trữ và phân tích dữ liệu lớn cũng đòi hỏi những kiến thức và công nghệ phù hợp. Chúng ta không thể sử dụng các kỹ thuật lưu trữ và phân tích dữ liệu truyền thống với dữ liệu lớn được. Trong bài báo này, nhóm tác giả sẽ trình bày việc triển khai xây dựng nền tảng lưu trữ dữ liệu lớn sử dụng Apache Hadoop trên một cụm (cluster) các máy tính và Apache Spark để phân tích dữ, trích rút các thông tin có ích (insights) từ tập dữ liệu lưu trữ trên các máy tính này.