Nhận dạng cử chỉ tay trong thời gian thực là một thách thức do các dáng tay khác nhau trong cùng một cử chỉ tay hay tương đồng giữa các cử chỉ khác nhau, hoặc việc che lấp và độ phức tạp của các khớp tay. Bài báo đề xuất phương pháp rút trích đặc trưng hình dáng bàn tay từ ảnh độ sâu và vị trí các khớp bàn tay áp dụng phương pháp Bag-Of-Visual Words. Các đặc trưng này qua mô hình temporal pyramid sẽ khai thác được mối tương quan theo thời gian giữa các dáng tay. Kết quả thực nghiệm trên tập dữ liệu DHG cho kết quả tốt, có thể áp dụng trong bài toán thực tế về điều khiển robot, hay điều khiển thuyết trình trong giảng dạy.