TEKNOLOGI INFORMASI & MULTIMEDIA
SPEECH RECOGNITION
Speech Recognition atau biasa dikenal dengan Automatic Speech Recognition (ASR) merupakan suatu pengembangan yang dilakukan dalam bidang teknik dan sistem yang memungkinkan sebuah komputer untuk menerima masukan berupa kata atau kalimat yang diucapkan. Teknologi ini memungkinkan suatu perangkat untuk memahami dan mengenali kata-kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Kata-kata yang diucapkan dapat diubah bentuknya menjadi suatu sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan data angka yang kemudian disesuaikan dengan kode-kode tertentu untuk mengidentifikasi kata-kata tersebut. Hasil dari identifikasi kata-kata yang telah diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi sebagai sebuah komando atau perintaj untuk melakukan suatu pekerjaan, misalnya penekanan tombol pada telepon genggam yang dilakukan secara otomatis dengan suatu perintah suara..
Sejarah dari speech recognition dimulai pada tahun 1952 dengan ditemukannya sebuah perangkat bernama Audrey (automatic digit recognizer) oleh Bell. Namun, pada tahun 1962 dikembangkannya sebuah teknologi bernama shoebox , dimana teknologi ini mampu untuk memahami 16 kata , 9 konsonan dan 4 vocal dalam Bahasa inggris. Selanjutnya, pada tahun 1970-an Departemen Pertahanan A.S. memberikan sebuah kontribusi besar terhadap pengembangan speech recognition tentang program DARPA SUR (speech understanding research) yang dapat menghasilkan suatu sistem dengan kemampuan memahami 1011 kata dan juga kalimat yang logis dalam Bahasa inggris. Selanjutnya, pada tahun 1980-an sebuah terobosan besar mengenai pengembangan model Hidden Markov yang menggunakan statiska untuk menentukan suatu probabilitas kata dari suara yang tidak dikenal. Sistem tersebut diadopsi di dalam sebuah boneka yang dibuat untuk anak-anak yang di kenal sebai Julie. Boneka tersebut telah dilatih dengan kemampuan untuk menanggapi upacan, namun masih ada kelemahannya yaitu pemberian jeda pada kata-kata yang diucapkan. Kemudian pada tahun 1990-an, sebuah perusahaan bernama DRAGON merilis sebuah speech recognition software pertama di dunia yang dinamai Dragon Naturally Speaking yang membuat kita dapat mengucapkan 100 kata dalam 1 menit. Sedangkan pada tahun 2000-an sampai sekarang pengembangan speech recognition terus dikembangkan dengan didukung dengan teknologiteknologi yang canggih dan terkini, dan memungkinkan semakin canggih juga kemampuan speech recognition yang dihasilkan.
Pada era saat ini yang dikenal dengan era industry 4.0, teknologi speech recognition lebih dikenal dengan Voice Command Recognition yang telah banyak di aplikasikan pada kehidupan sehari-hari, misalnya teknologi voice command yang berada pada handphone bernama google voice, atau voice command yang terdapat pada otomasi yang berada di rumah dengan sistem ciptaan google bernama Google Home, atau voice command ciptaan perusahaan Amazon dengan nama Alexa. Teknologi yang telah diterapkan pada penggunaan speech recognition dimasa kini telah berkembang pesat, sebuah perangkat yang terdapat speech recognition sudah lebih canggih dengan berbagai Bahasa masukan yang telah ditetapkan dalam 1 perangkat tersebut, dan juga perangkat tersebut sudah memiliki banyak masukan perintah yang telah disediakan oleh pengembang teknologi speech recognition. Teknologi speech recognition pada masa kini sangat memudahkan manusia dalam menjalani kehidupannya, hanya dengan mengucap suatu kata, maka perangkat yang telah menggunakan teknologi ini akan langsung men-eksekusi kalimat tersebut sebagai perintah untuk dijadikan sebagai output sesuai dengan kemauan si pengguna. Kinerja dari sebuah sistem speech recognition dapat dilihat dalam hal ketepatan dan kecepatan pembacaan kata atau kalimat. Ketepatan biasanya dinilai dengan tingkat kesalahan kata (Word Error Rate – WER). Sedangkan kecepatan diukur dengan sistem real time. Beberapa hal-hal penting untuk mengukur kinerja lainnya adalah Single Word Error Rate (SWER) dan Command Success Rate (CSR). Namun disamping itu, teknologi speech recognition merupakan suatu teknologi yang sangat kompleks untuk dipelajari dan memerlukan keahlian khusus untuk mengembangkannya, maka dari itu pengembangan speech recognition membutuhkan waktu yang cukup lama pada zaman dahulu untuk secanggih seperti sekarang dan selaras dengan teknologi yang digunakan pada era industry 4.0 .
Referensi : Rabiner, Lawrence, R. (1989). A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proceedings of the IEEE, 77(2), 257–286.
https://mti.binus.ac.id/2019/05/08/speech-recognition
https://galanghakim.wordpress.com/2016/10/11/teknologi-voice-command-recognition/
Komentar
Posting Komentar