Speech recognition atau yang dikenal juga sebagai pengenalan suara otomatis bekerja dengan mengkonversi kata yang diucapkan dengan teks. Pengenalan suara adalah sebuah sistem yang dilatih untuk pengguna tertentu sehingga seseorang dapat mengakui ucapan mereka berdasarkan suara vokal mereka yang unik.
Voice recognition dibagi menjadi dua jenis, yaitu :
Perkembangan alat pengenal ucapan
Speech recognition pertama kali muncul di tahun 1952 dan terdiri dari device untuk pengenalan satu digit kata yang diucapkan. Kemudian pada tahun 1964, muncul IBM Shoebox, salah satu teknologi yang cukup terkenal di Amerika dalam bidang kesehatan adalah Medical Transcriptionist (MT) merupakan aplikasi komersial yang menggunakan speech recognition. Dan sampai sekarang banyak aplikasi yang dikembangkan menggunakan speech recognizer, antara lain di bidang kesehatan terdapat MT, di bidang militer terdapat High-performance fighter aircraft, Training air traffic controllers, sampai pada alat yang membantu orang-orang yang memiliki kesulitan dalam menggunakan tangan, maka diciptakannya komputer yang dapat dioperasikan menggunakan deteksi pengucapan user.
Sebenarnya ada dua pemodelan dasar untuk speech recognition ini yaitu :
• Hidden Markov model (HMM)-based speech recognition• Dynamic time warping (DTW)- based speech recognition.
Modern general-purpose speech recognition system umumnya menggunakan model Hidden Markov. Model ini merupakan model yang statistikal dimana output adalah sekuens dari simbol atau kuantitas. Alasan menggunakan model Hidden Markov karena sebuah sinyal dari pengucapan bisa dilihat seperti piecewise stationary signal atau short-time stationary signal. Metode ini sangat populer, sederhana dan secara komputasional bisa digunakan.pada Dynamic time warping yang merupakan pendekatan yang pernah digunakan untuk speech recognition yang sekarang sudah digantikan oleh modelHidden Markov.
Pada pengembangannya, speech recognizer diimplementasikan menggunakan Dynamic Time Wraping Algorithm (DTW) yang digunakan untuk menerjemahkan perkataan yang membutuhkan perbandingan antara sinyal masuk dari kata dan bermacam-macam kata yang ada di dalam kamus dengan mengukur kesamaan antara dua sekuensial pada waktu yang berbeda baik dari segi kecepatannya. Algoritma DTW diimplementasikan pada video, audio, dan grafik dan tentu saja data-data bisa diubah ke dalam bentuk representasi linear yang bisa dianalisis oleh DTW.DTW pertama kali dikenalkan pada tahun 1960an dan dieksplorasi sampai tahun 70an yang menghasilkan alat speech recognizer.
DTW sering digunakan dalam area :
· handwriting and online signature matching,
· sign language recognition and gestures recognition,
· mining and time series clustering,
· computer vision and computer animation,
· surveillance,
· protein sequence alignment and chemical engineering,
· music and signal processing.
LATAR BELAKANG KEBUTUHAN
Teknologi ini memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Kata-kata yang diucapkan diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suaramenjadi sekumpulan angka yang kemudian disesuaikan dengan kode-kode tertentu untuk mengidentifikasikan kata-kata tersebut. Hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi sebagai sebuah komando untuk melakukan suatu pekerjaan, misalnya penekanan tombol padatelepon genggam yang dilakukan secara otomatis dengan komando suara.
Alat pengenal ucapan, yang sering disebut dengan speech recognizer, membutuhkan sampel kata sebenarnya yang diucapkan dari pengguna. Sampel kata akan didigitalisasi, disimpan dalam komputer, dan kemudian digunakan sebagai basis data dalam mencocokkan kata yang diucapkan selanjutnya. Sebagian besar alat pengenal ucapan sifatnya masih tergantung kepada pengeras suara. Alat ini hanya dapat mengenal kata yang diucapkan dari satu atau dua orang saja dan hanya bisa mengenal kata-kata terpisah, yaitu kata-kata yang dalam penyampaiannya terdapat jeda antar kata. Hanya sebagian kecil dari peralatan yang menggunakan teknologi ini yang sifatnya tidak tergantung pada pengeras suara. Alat ini sudah dapat mengenal kata yang diucapkan oleh banyak orang dan juga dapat mengenal kata-kata kontinu, atau kata-kata yang dalam penyampaiannya tidak terdapat jeda antar kata.
Pengenalan ucapan dalam perkembangan teknologinya merupakan bagian dari pengenalan suara (proses identifikasi seseorang berdasarkan suaranya). Pengenalan suara sendiri terbagi menjadi dua, yaitu pengenalan pengguna (identifikasi suara berdasarkan orang yang berbicara) dan pengenalan ucapan (identifikasi suara berdasarkan kata yang diucapkan).
Aplikasi speech recognition diantaranya :
- “Call home”
- “Call routing”
- “domotic appliance control and content-based spoken audio search”
- entri data sederhana (misalnya memasukkan nomor kartu kredit)
- penyusunan dokumen terstruktur (misalnya sebuah laporan radiologi)
- pidato-untuk-pengolahan teks (misalnya pengolah kata atau email)
- dalam pesawat terbang cockpits ( biasanya disebut Direct Voice Input)
Dibidang militer untuk menyandikan pesan-pesan panglima perang kepada pasukan yang berada digaris depan. Contohnya Model Markov Tersembunyi atau Hidden Markov Model (HMM), yang merupakan model statistik dari sebuah sistem yang diasumsikan oleh Markov sebagai suatu proses dengan parameter yang tidak diketahui. Tantangan dalam model statistik ini adalah menentukan parameter-parameter tersembunyi dari parameter yang dapat diamati.
Parameter-parameter yang telah kita tentukan kemudian digunakan untuk analisis yang lebih jauh pada proses pengenalan kata yang diucapkan. Berdasarkan HMM, proses pengenalan ucapan secara umum menghasilkan keluaran yang dapat dikarakterisasikan sebagai sinyal. Sinyal dapat bersifat diskrit (karakter dalam abjad) maupun kontinu (pengukuran temperatur, alunan musik).
Secara garis besar model sinyal dapat dikategorikan menjadi dua golongan, yaitu: model deterministik dan model statistikal. Model deterministik menggunakan nilai-nilai properti dari sebuah sinyal seperti: amplitudo, frekuensi, dan fase dari gelombang sinus. Model statistikal menggunakan nilai-nilai statistik dari sebuah sinyal seperti: proses Gaussian, proses Poisson, proses Markov, dan proses Markov Tersembunyi.
Pada bidang militer, teknologi kecerdasan buatan dapat diimplementasikan pada sistem yang mensimulasikan kondisi-kondisi perang yang mungkin akan terjadi di lapangan,mengatur strategi serta mengkalkulasi kemungkinan beberapa strategi terhadap kondisi medan perang secara simultan dan menampilkan hasilnya.
ALGORITMA YANG DIGUNAKAN
Menggunakan DTW Algorithm dalam Speech Recognition. Vocal Signal Analysis. Suara merambat melalu udara sebagai gelombang longitudinal dengan kecepatan yang tergantung densitas udara. Cara yang paling mudah untuk merepresentasikan suara adalah dengan grafik sinusoidal. Grafik tersebut merepresentasikan variasi dari tekan udara tergantung waktunya.
Ada tiga hal yang membentuk gelombang suara, yaitu :
1. Amplitudo, diukur menggunakan satuan decibels (DB), pengukuran dilakukan dengan mengikuti fungsi logaritma sebagai standar suara. Pengukuran amplitudo menggunakan DB sangat penting karena ini representasi langsung bagaimana suara dirasakan oleh orang.
2. Frekuensi, adalah banyaknya gelombang per detik, biasa diukur menggunakan skala Hertz (Hz).
3. Fase, mengukur posisi dari awal gelombang sinus.
Untuk membuat suara menjadi kurva sinusoidal, digunakanlah teorema Fourier dan Word detection.
Teknologi sekarang ini bisa mengidentifikasi secara akurat awal dan akhir satu kata diucapkan dalam audio stream, tergantung pada proses sinyal yang berbeda dengan waktu. Dengan mengevaluasi energi dan rata-rata magnitud dalam waktu yang singkat dan menghitung rata-rata zero-crossing rate. Menetapkan poin awal dan akhir merupakan masalah sederhana jika rekaman audio dilakukan dalam kondisi yang ideal. Dalam kasus ini, rasio signal-noise-nya tinggi karena mudah untuk menentukan lokasi dalam stream yang terdiri dari sinyal valid dengan analisis sampel. Dalam kondisi sebenarnya tidak lah sesederhana itu, background-noise memiliki intensitas yang signifikan dan dapat mengganggu proses isolasi kata dalam stream.
1. Penerimaan data input.
2. Ekstraksi, yaitu penyimpanan data masukan sekaligus pembuatan database untuk template.
3. Perbandingan atau pencocokkan, yaitu tahap pencocokkan data baru dengan data suara (pencocokkan tata bahasa) pada template.
4. Validasi identitas pengguna.
Proses pencocokkan pola suara
0 komentar:
Posting Komentar