به‌کارگیریِ اطلاعاتِ زبانی در یک سیستمِ بازشناسیِ گفتار پیوستة فارسی

نوع مقاله: علمی-پژوهشی

نویسندگان

دانشگاه صنعتی شریف( آزمایشگاه پردازش گفتار)

چکیده

در این مقاله یک سامانۀ بازشناسی گفتار پیوسته برای زبان فارسی معرفی می‌شود و نقش مدل آوایی و مدل زبانی در آن مورد بررسی قرار می‌گیرد. مدل‌های آوایی با روش‌های مستقل‌از‌بافت و وابسته‌به‌بافت در این سامانه به‌کار رفته و نتایجِ به‌کارگیریِ آن‌ها ارائه شده است. مدل زبانیِ سه‌کلمه‌ای نیز با روش‌های مبتنی‌بر کلمه، مبتنی‌بر مقولة نحوی و مبتنی‌بر طبقه، با استفاده از پیکرۀ متنیِ زبانِ فارسی استخراج و در سامانۀ بازشناسی به‌کار گرفته شده است. همچنین مدل زبانیِ دستوری مبتنی‌بر دستور ساخت- گروهیِ تعمیم‌یافته در این سامانه پیاده‌سازی شده و نیز در ترکیب با مدل زبانیِ آماری به‌کار رفته است.  نتایج حاصل نشان می‌دهد که مدل آواییِ وابسته به بافت، مطابق انتظار، بهترین عملکرد را دارد. همچنین مدلِ زبانیِ سه‌کلمه‌ایِ مبتنی بر کلمه، نسبت به سایر روش‌های استخراجِ مدلِ زبانیِ آماری برتری دارد. درضمن ترکیبِ مدلِ زبانیِ دستوری با مدلِ زبانیِ آماری منجر به بهبودِ نتایجِ بازشناسی می‌شود. سامانۀ بازشناسیِ گفتارِ معرفی‌شده در این مقاله، اولین سامانۀ بازشناسی برای گفتارِ پیوستة فارسی بوده و با پشتوانۀ فعالیت‌های تحقیقاتیِ متعددی که برای پیاده‌سازیِ آن انجام شده است، قابلیت استفاده به‌صورت کاربردی را یافته است.

کلیدواژه‌ها


عنوان مقاله [English]

Using Linguistic Data in a Continuous Speech Recognition System for Persian

نویسندگان [English]

  • Mohammad Bahrani
  • Hosein Sameti
چکیده [English]

In this paper, a continuous speech recognition system for the Persian language is introduced and the roles of acoustic and language models are examined. Context-independent and context-dependent acoustic models are used in the system and the results of their employment are presented. Moreover, word-based, POS-based and class-based triphone language models are extracted using Persian text corpus and incorporated in the speech recognition system. In addition, a grammatical language model based on GPSG is implemented in the system and is used in combination with the statistical language model. Experimental results demonstrated hat as expected, context-dependent phonetic models show the best performances. Also, the word-based triphone language model showed superiority over other statistical language models. Moreover,  the combination of grammatical language models with statistical ones proved to lead to better recognition results. The system introduced in this paper is the first Persian speech recognition system capable of practical usage and is based on numerous research works performed for its design and implementation.

کلیدواژه‌ها [English]

  • continuous speech recognition
  • acoustic modeling
  • language modeling
  • statistical language model
  • grammatical language model

فایل پی دی اف را دریافت نمایید