Bayangkan diri Anda duduk santai di sofa dan hanya memesan komputer atau laptop atau ponsel Anda untuk melakukan tugas-tugas sederhana seperti mengetik surat atau melakukan beberapa perintah. Apa itu mungkin?

Tentu saja, di situlah pengenalan suara muncul.

Menurut definisi itu adalah proses pengenalan ucapan manusia dan diterjemahkan ke dalam bentuk teks.

Prinsip

Prinsip dasar pengenalan suara melibatkan fakta bahwa ucapan atau kata-kata yang diucapkan oleh manusia menyebabkan getaran di udara, yang dikenal sebagai gelombang suara. Gelombang kontinu atau analog ini digital dan diproses dan kemudian diterjemahkan menjadi kata-kata yang sesuai dan kemudian kalimat yang sesuai.

pengenalan suara

Komponen Sistem Pengenalan Pidato

Jadi terdiri dari apa Sistem Pengenalan Ucapan dasar?

Komponen Sistem Pengenalan Pidato

Perangkat penangkap ucapan : Terdiri dari mikrofon, yang mengubah sinyal gelombang suara menjadi sinyal listrik dan Konverter Analog ke Digital yang mengambil sampel dan mendigitalkan sinyal analog untuk mendapatkan data terpisah yang dapat dipahami komputer.
Modul Sinyal Digital atau Prosesor : Ini melakukan pemrosesan pada sinyal ucapan mentah seperti konversi domain frekuensi, hanya memulihkan informasi yang diperlukan, dll.
Penyimpanan sinyal yang telah diproses sebelumnya : Ucapan yang telah diproses sebelumnya disimpan dalam memori untuk melakukan tugas pengenalan ucapan lebih lanjut.
Referensi Pola Pidato : Komputer atau sistem terdiri dari pola bicara atau templat yang telah ditentukan sebelumnya yang telah disimpan dalam memori, untuk digunakan sebagai referensi untuk pencocokan.
Algoritma pencocokan pola : Sinyal ucapan yang tidak dikenal dibandingkan dengan pola ucapan referensi untuk menentukan kata atau pola kata yang sebenarnya.

Bekerja dari Sistem

Sekarang mari kita lihat bagaimana sebenarnya keseluruhan sistem bekerja.

Bekerja dari Sistem

Ucapan dapat dilihat sebagai bentuk gelombang akustik, yaitu sinyal yang membawa informasi pesan. Manusia normal dengan kecepatan gerak artikulator (alat bicara) yang terbatas dapat menghasilkan suara dengan kecepatan rata-rata 10 suara per detik. Tingkat informasi rata-rata sekitar 50-60 bit / detik. Artinya sebenarnya hanya diperlukan informasi 50 bit / detik dalam sinyal ucapan. Bentuk gelombang akustik ini diubah menjadi sinyal listrik analog oleh mikrofon. Konverter Analog ke Digital mengubah sinyal analog ini menjadi sampel digital dengan melakukan pengukuran gelombang yang tepat pada interval diskrit.
Sinyal digital terdiri dari aliran sinyal periodik yang diambil sampelnya pada 16000 kali per detik dan tidak cocok untuk dijalankan secara aktual pengenalan suara proses karena pola tidak dapat ditemukan dengan mudah. Untuk mengekstrak informasi aktual, sinyal dalam domain waktu diubah menjadi sinyal dalam domain frekuensi. Ini dilakukan oleh Prosesor Sinyal Digital menggunakan teknik FFT. Dalam sinyal digital, komponen setelah setiap 1/100^thsatu detik dianalisis dan spektrum frekuensi untuk setiap komponen tersebut dihitung. Dengan kata lain, sinyal digital tersegmentasi menjadi bagian-bagian kecil dari amplitudo frekuensi.
Setiap segmen atau grafik frekuensi merepresentasikan suara berbeda yang dibuat oleh manusia. Komputer melakukan pencocokan segmen yang tidak diketahui dengan fonetik yang disimpan dari bahasa tertentu. Pencocokan pola ini dilakukan dengan 3 cara:

Menggunakan pendekatan fonetik Akustik : Dalam pendekatan fonetik Akustik, umumnya Model Markov Tersembunyi digunakan. Model ini mengembangkan model probabilitas non deterministik untuk pengenalan suara. Model ini terdiri dari dua variabel - keadaan tersembunyi dari fonem yang disimpan dalam memori komputer dan segmen frekuensi yang terlihat dari sinyal digital. Setiap fonem memiliki probabilitasnya sendiri dan segmennya dicocokkan dengan fonem menurut probabilitasnya dan fonem yang cocok kemudian dikumpulkan bersama untuk membentuk kata-kata yang benar sesuai dengan aturan tata bahasa yang tersimpan.

Menggunakan pendekatan pengenalan pola : Pada pendekatan pengenalan pola, sistem dilatih dengan pola bicara tertentu untuk setiap bahasa dan pola bicara yang tidak diketahui dibandingkan dengan pola bicara referensi dengan menentukan jarak antar sinyal menggunakan teknik time warping.

Menggunakan kecerdasan buatan : Pendekatan Kecerdasan Buatan didasarkan pada pemanfaatan sumber pengetahuan dasar seperti pengetahuan tentang suara yang diucapkan berdasarkan pengukuran spektral, pengetahuan tentang kata-kata bermakna dan sintaksis yang tepat.

Faktor-faktor yang menjadi dasar Sistem Pengenalan Ucapan

Sistem pengenalan suara bergantung pada faktor-faktor berikut:

Kata-Kata Terisolasi : Perlu ada jeda antara kata-kata yang berurutan yang diucapkan karena kata-kata yang terus menerus dapat tumpang tindih sehingga sistem sulit untuk memahami kapan sebuah kata dimulai atau diakhiri. Jadi, perlu ada keheningan antara kata-kata yang berurutan.
Speaker Tunggal : Banyak pembicara yang mencoba memberikan masukan ucapan pada saat yang sama dapat menyebabkan sinyal dan gangguan yang tumpang tindih. Sebagian besar sistem pengenalan suara yang digunakan adalah sistem yang bergantung pada speaker.
Ukuran kosakata : Bahasa dengan kosakata besar sulit untuk dipertimbangkan untuk pencocokan pola dibandingkan dengan kosakata kecil karena kemungkinan memiliki kata yang ambigu lebih sedikit pada yang terakhir.

Sistem Pengenalan Ucapan di Windows 7

Saya ingin merekomendasikan langkah-langkah berikut untuk siapa saja yang menggunakan Windows 7 untuk sistem pengenalan suara

Buka Control Panel dari menu start atau dengan mengklik ikon.
Pilih Kemudahan Akses lalu klik Pengenalan Ucapan.
Selanjutnya klik siapkan mikrofon dan pilih mikrofon desktop dari opsi yang tersedia.
Selanjutnya ambil tutorial pidato dan ikuti instruksi yang diberikan.
Setelah itu, latih komputer Anda untuk opsi yang lebih baik sehingga komputer menyimpan pola pasti dari sinyal ucapan Anda. Ini dilakukan dengan mengeklik opsi 'latih komputer Anda untuk lebih memahami Anda' dan kemudian ikuti petunjuknya.
Sekarang mulai ikon pengenalan suara dan mulai mendiktekan ucapan Anda ke komputer. Anda juga dapat menambahkan kata-kata Anda sendiri ke kamus komputer.

Sistem Pengenalan Pidato Praktis: Menggunakan HM2007

Sistem pengenalan suara praktis dapat dibangun menggunakan Speech Recognition IC HM2007 . HM2007 adalah IC 48 pin yang menyediakan fungsi pengenalan suara. Ia bekerja dalam dua mode: mode Manual atau mode CPU. Dalam kedua mode tersebut, IC pertama kali dilatih untuk mengenali kata oleh pengguna yang mengucapkan setiap kata untuk nomor yang sesuai yang ditekan pada tombol. IC menyimpan setiap sinyal kata di lokasi memori yang sesuai dengan kata tersebut. Output data dari IC dihubungkan ke Mikrokontroler dari mana ia ditampilkan pada LCD.

Sistem Pengenalan Pidato Praktis

Biasanya kami menggunakan mode manual untuk pengoperasian HM2007.

HM2007 terdiri dari pin RDY yang merupakan pin rendah aktif yang menunjukkan bahwa IC siap untuk tujuan pelatihan.
Input Suara akan diberikan melalui mikrofon yang terhubung ke pin MICIN di IC.
IC tersebut dihubungkan dengan keypad yang digunakan untuk memberikan masukan angka yang sesuai dengan setiap kata. IC bekerja dalam dua fungsi - Hapus dan Latih. Saat tombol Train ditekan pada keyboard, IC memulai proses pelatihannya.
Pengguna menekan tombol angka sebelum menekan tombol fungsi 'Latih' dan mengucapkan kata yang diperlukan ke mikrofon.
IC mengirimkan sinyal tinggi ke pin ME (Memory Enable) yang terhubung ke pin ME SRAM yang sesuai. Sinyal data 8 bit yang sesuai dengan angka yang ditekan disimpan di SRAM (RAM eksternal) melalui bus eksternal.
Setelah input suara terdeteksi, pin RDY berada pada logika tinggi dan IC kembali ke status pengenalan, di mana ia memulai proses pengenalan.
Hasil dari proses tersebut diberikan melalui bus data dengan pin DEN (Data Enable) tinggi.
Data 8 bit tersebut kemudian dapat diberikan ke Mikrokontroler melalui rangkaian Interface processor atau terlebih dahulu dikunci menggunakan latch IC 74HC573.
Mikrokontroler dihubungkan dengan LCD dan diprogram sedemikian rupa sehingga kata yang bersangkutan ditampilkan di layar.

Satu-satunya tindakan pencegahan yang perlu diambil adalah dengan tidak menggunakan homonim (kata-kata dengan suara serupa) dan juga menjaga eksitasi dalam suara.

Jadi, ini semua bagaimana a sistem pengenalan suara dasar bekerja. Masukan lebih lanjut dipersilakan untuk ditambahkan.