Hera Iriyanti: SPEECH SYNTHESIS & SPEECH RECOGNITION

Speech Synthesis & Speech Recognition

Pengertian Speech synthesis
adalah transformasi dari teks ke arah suara (speech). Transformasi ini mengkonversi teks ke pemadu suara (speech synthesis) yang sebisa mungkin dibuat menyerupai suara nyata, disesuaikan dengan aturan – aturan pengucapan bahasa.TTS (text to speech) dimaksudkan untuk membaca teks elektronik dalam bentuk buku, dan juga untuk menyuarakan teks dengan menggunakan pemaduan suara. Sistem ini dapat digunakan sebagai sistem komunikasi, pada sistem informasi referral, dapat diterapkan untuk membantu orang-orang yang kehilangan kemampuan melihat dan membaca.

Sejarah Speech Synthesis

Upaya yang paling awal untuk menghasilkan lahirnya pemandu suara, pada abad XVIII. Terlepas dari kenyataan bahwa upaya pertama adalah bentuk mesin mekanis, kita dapat mengatakan hari ini bahwa synthesizer sudah berkualitas tinggi. Pada tahun 1779 di St Petersburg, Rusia Profesor Kratzenshtein Kristen fisiologis menjelaskan perbedaan antara lima vokal panjang (/ A /, / e /, / i /, / o /, dan / u /) dan membuat alat untuk menghasilkan mereka artifisial. Tahun 1791 di Wina, Wolfgang von Kempelen memperkenalkan nya “Akustik-Mekanik Mesin Speech”. Dalam sekitar pertengahan 1800-an Charles Wheatstone dibangun terkenal versi mesin berbicara von Kempelen’s.

Speech Synthesis

Speech synthesis atau pidato sintesis adalah produksi buatan manusia pidato. Sebuah sistem komputer yang digunakan untuk tujuan ini disebut speech synthesizer, dan dapat diimplementasikan dalam perangkat lunak atau perangkat keras. text-to-speech (TTS) sistem bahasa normal mengkonversi teks ke dalam pidato. sistem lain membuat representasi linguistik simbolis seperti transkripsi fonetik bicara.

Pidato buatan dapat dibuat dengan potongan-potongan concatenating pidato yang direkam disimpan dalam database. Sistem berbeda dalam ukuran pidato yang disimpan unit; sebuah sistem yang menyimpan telepon memberikan rentang output terbesar, tapi mungkin kurang jelas. Untuk keperluan khusus domain, yang menyimpan seluruh kata-kata atau kalimat memungkinkan output yang berkualitas tinggi. Atau, synthesizer dapat menggabungkan sebuah model dari sistem vokal dan karakteristik suara manusia lain untuk membuat yang benar-benar “sintetik” output suara. Kualitas synthesizer pidato dinilai oleh kesamaan dengan suara manusia dan kemampuannya untuk dipahami. semua dimengerti text-to-speech program yang memungkinkan orang-orang dengan gangguan visual atau membaca untuk mendengarkan karya-karya tulis di komputer rumah. Banyak sistem operasi komputer termasuk alat bicara sejak awal 1980-an.

Pengertian Speech Recognition

Dikenal juga dengan pengenal suara otomatis (automatic speech recognition) atau pengenal suara komputer (computer speech recognition). Merupakan salah satu fitur antarmuka telematika yang merubah suara menjadi tulisan (hebat, padahal kalo lagi di dikte sama dosen juga kita bisa ngubah suara jadi tulisan). Istilah ‘voice recognition’ terkadang digunakan untuk menunjuk ke speech recognition dimana sistem pengenal dilatih untuk menjadi pembicara istimewa, seperti pada kasus perangkat lunak untuk komputer pribadi, oleh karena itu disana terdapat aspek dari pengenal pembicara, dimana digunakan untuk mengenali siapa orang yang berbicara, untuk mengenali lebih baik apa yang orang itu bicarakan. Speech recognition merupakan istilah masukan yang berarti dapat mengartikan pembicaraan siapa saja.

Speech recognition atau pengenalan pembicaraan

(juga dikenal sebagai pengenalan suara otomatis atau pengakuan komputer pidato) mengkonversi diucapkan kata-kata untuk teks. The "pengenalan suara" istilah kadang-kadang digunakan untuk merujuk kepada sistem pengakuan yang harus dilatih untuk kasus-speaker tertentu seperti untuk perangkat lunak pengenal yang paling desktop.Menyadari pembicara dapat menyederhanakan tugas menerjemahkan pidato. Pengenalan pembicaraan adalah solusi yang lebih luas yang mengacu pada teknologi yang dapat mengenali pidato tanpa ditargetkan pada pembicara tunggal seperti sistem call center yang dapat mengenali suara sewenang-wenang.

Aplikasi pengenalan pembicaraan termasuk user interface seperti suara panggilan suara (misalnya, "Call home"), call routing (misalnya, "Saya ingin membuat collect call"), kontrol alat domotic, pencarian (misalnya, menemukan podcast di mana tertentu Kata-kata itu diucapkan), sederhana entri data (misalnya, memasukkan nomor kartu kredit), persiapan dokumen terstruktur (misalnya, sebuah laporan radiologi), pengolahan pidato-ke-teks (misalnya, kata prosesor atau email), dan pesawat udara (biasanya disebutInput langsung suara).
Secara umum, speech recognizer memproses sinyal suara yang masuk dan menyimpannya dalam bentuk digital. Hasil proses digitalisasi tersebut kemudian dikonversi dalam bentuk spektrum suara yang akan dianalisa dengan membandingkan dengan template suara pada database sistem. Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan urutannya. Pemilahan ini dilakukan agar proses analisis dapat dilakukan secara paralel.

Speech recognition

merupakan salah satu jenis biometric recognition,yaitu proses komputer mengenali apa yang diucapkan seseorang berdasarkan intonasi suara yang dikonversi ke dalam bentuk digital print.
Pengenalan pola suara adalah salah satu aplikasi yang berkembang saat ini. Sistem ini mengijinkan kita untuk berkomunikasi antara manusia dengan memasukkan data ke komputer. Salah satu fungsinya adalah untuk meningkatkan efisiensi industri manufaktur, mengontrol mesin dengan berbicara pada mesin itu. Algoritma yang diimplementasikan untuk masalah pengenalan suara ini adalah algoritma divide and conquer. Proses awalnya adalah mengkonversi data spektrum suara ke dalam bentuk digital dan mengibah dalam bentuk diskrit.

Sejarah

Automatic Speech Recognition (ASR) sekarang ini telah banyak dikembangkan dalam berbagai penelitian. Terdapat bermacam-macam metode yang dapat digunakan untuk mengenali ucapan manusia. Penelitian ini akan membahas penggunaan metode Hidden Markov Model (HMM) untuk pengenalan ucapan berbahasa Indonesia. Dalam penelitian ini, digunakan HMM diskrit untuk proses pelatihan dan pengujiannya. Berdasarkan hasil pengujian dengan menggunakan metode tersebut, kemudian dianalisa faktor keberhasilannya (tingkat ketelitiannya dalam %) berdasarkan parameter-parameter Linear Predictive Coding (LPC), parameter pitch (Fo) dan parameter energi (Eo) dalam proses mengenali suatu ucapan dalam bahasa Indonesia.

Referensi:

http://bintangprasetyo.blogspot.co.id/2014/11/pengertian-speech-synthesis.html?m=1

http://maria30589.blogspot.co.id/2010/11/speech-recognition.html?m=1

Hera Iriyanti

Selasa, 04 Oktober 2016

SPEECH SYNTHESIS & SPEECH RECOGNITION

Tidak ada komentar:

Posting Komentar