Khám phá công cụ giúp báo điện tử giao tiếp với bạn đọc bằng giọng nói

Hiện nay, một số báo điện tử hàng đầu Việt Nam đã bắt đầu ứng dụng công nghệ trí tuệ nhân tạo (AI). Một số báo đã hỗ trợ đọc bài viết tự động, trong khi Báo Thanh Niên vừa công bố chức năng nhận yêu cầu của người đọc qua giọng nói từ đầu năm 2021.

Nhân dịp này Blog ONECMS muốn giới thiệu về một công cụ cơ bản trong hỗ trợ giao tiếp bằng giọng nói cho các trang web, đó là Web Speech API. Đây sẽ là kiến thức nền tảng quan trọng, dù khi triển khai cho các báo điện tử ở Việt Nam vẫn cần tùy biến.

Web Speech API là gì?

Web Speech API là công cụ thành phần của ngôn ngữ lập trình HTML5, có khả năng cung cấp phương thức giao tiếp với các trang web bằng giọng nói, không sử dụng bàn phím và chuột như thông thường.

Với API này, các nhà phát triển có thể hỗ trợ trang web chuyển yêu cầu bằng giọng nói của người dùng từ micro của máy tính thành văn bản. Dữ liệu âm thanh sẽ được gửi về hệ thống để chuyển thể, sau đó văn bản có thể được hiển thị cho người dùng.

Công cụ giọng nói này bao gồm 2 phần chính, đó là công cụ tiếp nhận dữ liệu giọng nói đầu vào - Speech Input API, và công cụ chuyển văn bản thành giọng đọc - Text to Speech API. Trong ngôn ngữ lập trình, thành phần Speech Input API được gọi là SpeechRecognition, thành phần Text to Speech API được gọi là SpeechSynthesis.

SpeechRecognition cung cấp khả năng nhận diện giọng nói từ dữ liệu âm thanh đầu vào, và đáp ứng một cách thích hợp. Trong khi đó SpeechSynthesis là thành phần chuyển văn bản thành giọng nói, hỗ trợ đọc nội dung văn bản của web.

Các loại giọng đọc khác nhau được biểu thị bằng các đối tượng SpeechSynthesisVoice, còn các đoạn văn bản khác nhau được đại diện bởi các đối tượng SpeechSynthesisUtterance. Hệ thống đọc thực thi bằng hàm SpeechSynthesis.speak ().

Google đã bắt đầu hỗ trợ công cụ này trong trình duyệt Google Chrome từ tháng 3/2011. Hiện nay, Google Chrome 25 trở lên hỗ trợ Web Speech API. Các trình duyệt khác hỗ trợ chưa đầy đủ.

Người dùng có thể trải nghiệm bản demo của Web Speech API ở đây.