Nhận dạng tiếng nói và nhận dạng hình ảnh là các chủ đề thu hút nghiên cứu rộng rãi trong lĩnh vực trí tuệ nhân tạo. Trong đó, việc sử dụng các mạng nơ-ron nhân tạo mang lại kết quả nhận dạng tốt với tiềm năng ứng dụng cao. Tuy nhiên, các kỹ thuật này thường yêu cầu có dữ liệu và bộ nhớ lớn, khiến việc sử dụng chúng trên các thiết bị hạn chế về tài nguyên, công suất thấp trở nên khó khăn. Trong bài báo này chúng tôi trình bày việc thực hiện hai bài toán nhận dạng tiếng nói và nhận dạng hình ảnh, sử dụng các mạng học sâu (Convolution Neural Network - CNN) trên module vi điều khiển ESP32. Giải pháp đạt độ chính xác trên 97% với nhận dạng tiếng nói và 98% với nhận dạng ảnh, sử dụng khoảng 200KB bộ nhớ. Một ứng dụng điện thoại cũng được xây dựng để nhận thông tin trực tiếp từ bộ vi điều khiển, cho phép tương tác từ xa với hệ thống nhận dạng qua Wi-Fi hoặc Bluetooth.