Angry Birds -  Red Bird

Friday, November 18, 2011

SPEECH RECOGNITION



Voice recognition dibagi menjadi dua jenis, yaitu
• Speech recognition
merupakan proses yang dilakukan computer untuk identifikasi suara yang diucapkan oleh seseorang tanpa mempedulikan identitas orang terkait. Implementasi speech recognition misalnya perintah suara untuk menjalankan aplikasi komputer.
Parameter yang dibandingkan ialah tingkat penekanan suara yang kemudian akan dicocokkan dengan template database yang tersedia.

• Speaker recognition
Merupakan sistem pengenalan identitas yang diklaim oleh seseorang dari suaranya atau berdasarkan orang yang berbicara.
Misalnya berupa intonasi suara, tingkat kedalaman suara, dan sebagainya.
Speech recognition juga dikenal sebagai automatic speech recognition atau computer speech recognition yaitu penerjemah perkataan yang diucapkan menjadi text. Teknologi speech recognition ini sudah ada sejak lama dan sekarang banyak sekali jenis aplikasi yang dikembangkan menggunakan teknologi ini.

Speech recognition pertama kali muncul di tahun 1952 dan terdiri dari device untuk pengenalan satu digit kata yang diucapkan. Kemudian pada tahun 1964, muncul IBM Shoebox, salah satu teknologi yang cukup terkenal di Amerika dalam bidang kesehatan adalah Medical Transcriptionist (MT) merupakan aplikasi komersial yang menggunakan speech recognition. Dan sampai sekarang banyak aplikasi yang dikembangkan menggunakan speech recognizer, antara lain di bidang kesehatan terdapat MT, di bidang militer terdapat High-performance fighter aircraft, Training air traffic controllers, sampai pada alat yang membantu orang-orang yang memiliki kesulitan dalam menggunakan tangan, maka diciptakannya komputer yang dapat dioperasikan menggunakan deteksi pengucapan user.


Sebenarnya ada dua pemodelan dasar untuk speech recognition ini yaitu :
Hidden Markov model (HMM)-based speech recognition
• Dynamic time warping (DTW)- based speech recognition.

Modern general-purpose speech recognition system umumnya menggunakan model Hidden Markov. Model ini merupakan model yang statistikal dimana output adalah sekuens dari simbol atau kuantitas. Alasan menggunakan model Hidden Markov karena sebuah sinyal dari pengucapan bisa dilihat seperti piecewise stationary signal atau short-time stationary signal.

Metode ini sangat populer, sederhana dan secara komputasional bisa digunakan.pada Dynamic time warping yang merupakan pendekatan yang pernah digunakan untuk speech recognition yang sekarang sudah digantikan oleh model Hidden Markov.

Pada pengembangannya, speech recognizer diimplementasikan menggunakan Dynamic Time Wraping Algorithm (DTW) yang digunakan untuk menerjemahkan perkataan yang membutuhkan perbandingan antara sinyal masuk dari kata dan bermacam-macam kata yang ada di dalam kamus dengan mengukur kesamaan antara dua sekuensial pada waktu yang berbeda baik dari segi kecepatannya. Algoritma DTW diimplementasikan pada video, audio, dan grafik dan tentu saja data-data bisa diubah ke dalam bentuk representasi linear yang bisa dianalisis oleh DTW.
DTW pertama kali dikenalkan pada tahun 1960an dan dieksplorasi sampai tahun 70an yang menghasilkan alat speech recognizer.

DTW sering digunakan dalam area :

  • handwriting and online signature matching,
  • sign language recognition and gestures recognition,
  • mining and time series clustering,
  • computer vision and computer animation,
  • surveillance,
  • protein sequence alignment and chemical engineering,
  • music and signal processing.
Menggunakan DTW Algorithm dalam Speech Recognition
Vocal Signal Analysis. Suara merambat melalu udara sebagai gelombang longitudinal dengan kecepatan yang tergantung densitas udara. Cara yang paling mudah untuk merepresentasikan suara adalah dengan grafik sinusoidal. Grafik tersebut merepresentasikan variasi dari tekan udara tergantung waktunya.

Ada tiga hal yang membentuk gelombang suara, yaitu
  1. Amplitudo, diukur menggunakan satuan decibels (DB), pengukuran dilakukan dengan mengikuti fungsi logaritma sebagai standar suara. Pengukuran amplitudo menggunakan DB sangat penting karena ini representasi langsung bagaimana suara dirasakan oleh orang.
  2. Frekuensi, adalah banyaknya gelombang per detik, biasa diukur menggunakan skala Hertz (Hz).
  3. Fase, mengukur posisi dari awal gelombang sinus.

Untuk membuat suara menjadi kurva sinusoidal, digunakanlah teorema Fourier dan Word detection.


Teknologi sekarang ini bisa mengidentifikasi secara akurat awal dan akhir satu kata diucapkan dalam audio stream, tergantung pada proses sinyal yang berbeda dengan waktu. Dengan mengevaluasi energi dan rata-rata magnitud dalam waktu yang singkat dan menghitung rata-rata zero-crossing rate. Menetapkan poin awal dan akhir merupakan masalah sederhana jika rekaman audio dilakukan dalam kondisi yang ideal. Dalam kasus ini, rasio signal-noise-nya tinggi karena mudah untuk menentukan lokasi dalam stream yang terdiri dari sinyal valid dengan analisis sampel. Dalam kondisi sebenarnya tidak lah sesederhana itu, background-noise memiliki intensitas yang signifikan dan dapat mengganggu proses isolasi kata dalam stream.

Skema utama Speech Recognition
  1. Penerimaan data input.
  2. Ekstraksi, yaitu penyimpanan data masukan sekaligus pembuatan database untuk template.
  3. Perbandingan atau pencocokkan, yaitu tahap pencocokkan data baru dengan data suara (pencocokkan tata bahasa) pada template.
  4. Validasi identitas pengguna.

Proses pencocokkan pola suara


REFERENSI

[1] Munir, Rinaldi, “Diktat Kuliah IF2251 Strategi Algoritmik”, Program Studi Teknik Informatika ITB, 2007.
[2] http://agusza.its-sby.edu/kuliah/citra/bab4_detail.html. 2004.
[3] http://www.dspguru.com/info/faqs/fftfaq.htm.
[4] http://mathworld.wolfram.com/FastFourierTransform.html.
[5] http://en.wikipedia.org/wiki/Spectrum_analyzer.
[6] http://en.wikipedia.org/wiki/Speaker_recognition.
[7] http://www.relisoft.com/Science/Physics/fft.html
[8] Munir, Rinaldi, Strategi Algoritma, Program Studi Informatika, Institut Teknologi Bandung. 2007.
[9] English Wikipedia 2008 http://en.wikipedia.org/wiki/Speech_recognition
[10] English Wikipedia 2008 http://en.wikipedia.org/wiki/Dynamic_time_warping
[11] Titus, Felix, Dynamic Programming Algorithms in Speech Recognition, Academy of Economic Studies, Bucharest.
[12] Pavel, Senin, Dynamic Time Warping Algorithm Review, Information and Computer Science Department, University of Hawaii at Manoa, 2008.
[13] Cory Myers, Lawrence R. Rabiner, Aaron E.Rosenberg, Performance Tradeoffs in Dynamic Time Warping Algorithms for Isolated Word Recognition, Ieee Transactions On Acoustics, Speech, And Signal Processing, Vol. Assp-28, No. 6, December 1980.

0 komentar:

Post a Comment

Template by:

Free Blog Templates