ارائه درون‌یابی KNNGI و مقایسه آن با درون‌یابی FI در بازشناسی گفتار

نویسندگان

چکیده

مدل‌سازی آماری HMM رویکردی پرکاربرد در سیستمهای بازشناسی گفتار پیوسته و گسسته است. توزیع احتمال بردارهای مشاهدات هر حالت پنهان مدل، به دو روش پیوسته3 یا گسسته4 تخمین زده می‌شوند. عملکرد توزیع احتمال پیوسته (با مدل‌سازی GMM5) بالاتر از عملکرد توزیع احتمال گسسته (با مدل‌سازی VQ6) است. ولی چنانچه بخواهیم از رویکرد HMM برای بازشناسی گفتار گسسته با دایره لغات وسیع استفاده کنیم، هزینه محاسباتی مرحله بازشناسی با افزایش تعداد لغات، به نحو چشمگیری افزایش می‌یابد. بدین لحاظ در بازشناسی گفتار گسسته با دایره لغات وسیع، از توزیع احتمال گسسته به منظور کاهش هزینه محاسباتی و امکان پیاده‌سازی بی درنگ7 استفاده می‌شود. برای جبران کاهش دقت و عملکرد مدل‌سازی DD-HMM، استفاده از درون‌یابی فازی FI مرسوم است. در این تحقیق روش درون‌یابی گوسی که دارای پشتوانه نظری قوی‌تر نسبت به FI است ارائه کرده‌ایم. کارایی دو روش درون‌یابی KNNGI و FI در بازشناسی 1500 کلمه فارسی مورد تحقیق و بررسی قرار دادیم. نتایج این تحقیق نشان می‌دهد که دقت و انعطاف‌پذیری درون‌یابی KNNGI بیشتر از روش FI است.

کلیدواژه‌ها


عنوان مقاله [English]

Presentation of K Nearest Neighbor Gaussian Interpolation and comparing it with Fuzzy Interpolation in Speech Recognition

نویسندگان [English]

  • A. Sayadiyan
  • K. Badi
  • M. Moin and N. Moghadam
چکیده [English]

Hidden Markov Model is a popular statisical method that is used in continious and discrete speech recognition. The probability density function of observation vectors in each state is estimated with discrete density or continious density modeling. The performance (in correct word recognition rate) of continious density is higher than discrete density HMM, but its computation complexity is very high, especially in very large discrete utterance recognition problems. For real time implementation of very large discrete utterance recognition, we must use discrete density HMM (DDHMM). To increase the performance of DDHMM, one usual solution is fuzzy interpolation. In this study, we present a new method named Gaussian interpolation. We implemented and compared the performance of two types of interpolation methods for 1500 Persian speech command words. Results show that precision and flexibility of Gaussian interpolation is better thanthose of the fuzzy interpolation.

کلیدواژه‌ها [English]

  • Gaussian Interpolation
  • Fuzzy Interpolation
  • Discrete Density HMM
  • Discrete utterance recogntion

تحت نظارت وف ایرانی