نوع مقاله : علمی-پژوهشی
نویسندگان
1 مؤسسه آموزش عالی علومشناختی، تهران، ایران
2 مهندسی برق و کامپیوتر، دانشگاه امیرکبیر، تهران، ایران
چکیده
محرکهای محیطی مختلف قادرند تا حالت هیجانی انسان را تحت تأثیر قرار داده و آنرا تغییر دهند. گفتار به دو طریق کلامی بواسطهی واژگان و نحو و همچنین غیرکلامی بواسطهی لحن و آهنگ گفتار، تغییرات حالت هیجانی را بیان میکند. لحن و آهنگ گفتار داری نقش پیرازبانی هستند و معنای گفتار را دستخوش تغییر میکنند. پردازش و مطالعهی کمّی هیجان نخستین بار با مفهوم محاسبات عاطفی در علومکامپیوتر مطرح شد. ایدهی اصلی این بود که ماشین بتواند حالت هیجانی انسان را بازشناسی و تفسیر کند و مطابق با آن پاسخ یا رفتار مناسب ارائه کند. مطالعهی کمّی گفتار هیجانی با عنوان بازشناسی گفتار هیجانی شناخته میشود. بازشناسی یا دستهبندی گفتار هیجانی بدین معناست که بتوان حالت هیجانی گوینده را با استفاده از تحلیل انجام شده بر روی سیگنال گفتار مشخص کرد. نخستین گام برای انجام این گونه از مطالعات داشتن مجموعهی دادگان غنی، استاندارد، با کیفیت و البته به تعداد مناسب برای ارزیابی الگوریتمهای بازشناسی هیجان گفتار است. انواع گسترده و استاندارد مجموعهی دادگان گفتار هیجانی به زبانهای مختلف وجود دارند. عدم دسترسی پژوهشگران این حوزه به چنین پایگاهدادهای سبب شده است تا دانش ما پیرامون الگوهای هیجانی و تأثیر آن در زبان فارسی به وضوح آشکار نباشد. این نکته ضرورت وجود تهیه و تولید مجموعهی دادگان گفتار هیجانی به زبان فارسی را نشان میدهد. در این مقاله قصد داریم فرآیند طراحی، تهیه و تولید مجموعهی دادگان گفتار هیجانی فارسی معیار مشابه با مجموعهی دادگان گفتار هیجانی برلین که قابلیت استفاده در مطالعات بازشناسی گفتار هیجانی را داراست تشریح کنیم.
کلیدواژهها
عنوان مقاله [English]
An Introduction to the Process of the Design and Production of a Standard Persian Emotional Speech Database
نویسندگان [English]
1 Institute for Cognitive Sciences Studies (ICSS), Tehran, Iran
2 Professor of Electrical and Computer Engineering, Amirkabir University of Technology, Tehran, Iran
چکیده [English]
Different environmental stimuli are able to influence and change the human emotional states. Speech expresses changes in emotional state in two ways; verbally through vocabulary and syntax and also non-verbally through tone and intonation. Tone and intonation have a paralinguistic role and can alter the meaning of speech. The quantitative processing and study of emotions were first introduced with the concept of affective computing in computer science. The main idea was that the machine could recognize and interpret human emotional states and respond or behave appropriately according to them. The quantitative study of emotional speech is known as speech emotion recognition. Recognition or classification of emotional speech means being able to recognize the speaker’s emotional state using analysis performed on the speech signal. The first step for conducting this type of study is to have a rich, standard, high-quality, and appropriately sized dataset for evaluating speech emotion recognition algorithms. There are a wide variety of standard speech emotion datasets in popular languages. The lack of such a database in the Persian language for researchers in the field of speech emotion recognition has resulted in low quality understanding of emotional patterns and their impact in the Persian language. This point underscores the necessity of creating and producing a speech emotion dataset in the Persian language. In this paper, we describe the designing, preparing, and producing a speech emotion dataset in standard Persian language, similar to the approach the Berlin Emotional Speech Database, which can be used in speech emotion recognition studies.
کلیدواژهها [English]