نوع مقاله : علمی-پژوهشی
نویسندگان
دانشگاه صنعتی شریف( آزمایشگاه پردازش گفتار)
چکیده
در این مقاله یک سامانۀ بازشناسی گفتار پیوسته برای زبان فارسی معرفی میشود و نقش مدل آوایی و مدل زبانی در آن مورد بررسی قرار میگیرد. مدلهای آوایی با روشهای مستقلازبافت و وابستهبهبافت در این سامانه بهکار رفته و نتایجِ بهکارگیریِ آنها ارائه شده است. مدل زبانیِ سهکلمهای نیز با روشهای مبتنیبر کلمه، مبتنیبر مقولة نحوی و مبتنیبر طبقه، با استفاده از پیکرۀ متنیِ زبانِ فارسی استخراج و در سامانۀ بازشناسی بهکار گرفته شده است. همچنین مدل زبانیِ دستوری مبتنیبر دستور ساخت- گروهیِ تعمیمیافته در این سامانه پیادهسازی شده و نیز در ترکیب با مدل زبانیِ آماری بهکار رفته است. نتایج حاصل نشان میدهد که مدل آواییِ وابسته به بافت، مطابق انتظار، بهترین عملکرد را دارد. همچنین مدلِ زبانیِ سهکلمهایِ مبتنی بر کلمه، نسبت به سایر روشهای استخراجِ مدلِ زبانیِ آماری برتری دارد. درضمن ترکیبِ مدلِ زبانیِ دستوری با مدلِ زبانیِ آماری منجر به بهبودِ نتایجِ بازشناسی میشود. سامانۀ بازشناسیِ گفتارِ معرفیشده در این مقاله، اولین سامانۀ بازشناسی برای گفتارِ پیوستة فارسی بوده و با پشتوانۀ فعالیتهای تحقیقاتیِ متعددی که برای پیادهسازیِ آن انجام شده است، قابلیت استفاده بهصورت کاربردی را یافته است.
کلیدواژهها
عنوان مقاله [English]
Using Linguistic Data in a Continuous Speech Recognition System for Persian
نویسندگان [English]
چکیده [English]
In this paper, a continuous speech recognition system for the Persian language is introduced and the roles of acoustic and language models are examined. Context-independent and context-dependent acoustic models are used in the system and the results of their employment are presented. Moreover, word-based, POS-based and class-based triphone language models are extracted using Persian text corpus and incorporated in the speech recognition system. In addition, a grammatical language model based on GPSG is implemented in the system and is used in combination with the statistical language model. Experimental results demonstrated hat as expected, context-dependent phonetic models show the best performances. Also, the word-based triphone language model showed superiority over other statistical language models. Moreover, the combination of grammatical language models with statistical ones proved to lead to better recognition results. The system introduced in this paper is the first Persian speech recognition system capable of practical usage and is based on numerous research works performed for its design and implementation.
کلیدواژهها [English]
فایل پی دی اف را دریافت نمایید