Xây dựng một hệ thống nhận dạng tiếng nói và hình ảnh sử dụng các mạng học sâu trên vi điều khiển hạn chế tài nguyên và bộ nhớ
Số 1 (84) 2024
Cung Thành Long, Vũ Văn Nghĩa
Tạp chí NCKH - ĐH Sao Đỏ
2024/03/29

Nhận dạng tiếng nói và nhận dạng hình ảnh là các chủ đề thu hút nghiên cứu rộng rãi trong lĩnh vực trí tuệ nhân tạo. Trong đó, việc sử dụng các mạng nơ-ron nhân tạo mang lại kết quả nhận dạng tốt với tiềm năng ứng dụng cao. Tuy nhiên, các kỹ thuật này thường yêu cầu có dữ liệu và bộ nhớ lớn, khiến việc sử dụng chúng trên các thiết bị hạn chế về tài nguyên, công suất thấp trở nên khó khăn. Trong bài báo này chúng tôi trình bày việc thực hiện hai bài toán nhận dạng tiếng nói và nhận dạng hình ảnh, sử dụng các mạng học sâu (Convolution Neural Network - CNN) trên module vi điều khiển ESP32. Giải pháp đạt độ chính xác trên 97% với nhận dạng tiếng nói và 98% với nhận dạng ảnh, sử dụng khoảng 200KB bộ nhớ. Một ứng dụng điện thoại cũng được xây dựng để nhận thông tin trực tiếp từ bộ vi điều khiển, cho phép tương tác từ xa với hệ thống nhận dạng qua Wi-Fi hoặc Bluetooth.

trí tuệ nhân tạo, bộ vi điều khiển, học sâu, thị giác máy tính, xử lý ngôn ngữ tự nhiên, học máy nhúng, TinyML.
Tải về

 

Các bài báo khác