مقدمه‌ای بر فرآیند طراحی و تولید پایگاه‌داده‌ی گفتار هیجانی فارسی معیار

نوع مقاله : علمی-پژوهشی

نویسندگان

1 مؤسسه آموزش عالی علوم‌شناختی، تهران، ایران

2 مهندسی برق و کامپیوتر، دانشگاه امیرکبیر، تهران، ایران

10.30465/lsi.2025.50640.1787

چکیده

محرک‌های محیطی مختلف قادرند تا حالت هیجانی انسان را تحت تأثیر قرار داده و آنرا تغییر دهند. گفتار به دو طریق کلامی بواسطه‌ی واژگان و نحو و همچنین غیرکلامی بواسطه‌ی لحن و آهنگ گفتار، تغییرات حالت هیجانی را بیان می‌کند. لحن و آهنگ گفتار داری نقش پیرازبانی هستند و معنای گفتار را دستخوش تغییر می‌کنند. پردازش و مطالعه‌ی کمّی هیجان نخستین بار با مفهوم محاسبات عاطفی در علوم‌کامپیوتر مطرح شد. ایده‌ی اصلی این بود که ماشین بتواند حالت هیجانی انسان را بازشناسی و تفسیر کند و مطابق با آن پاسخ یا رفتار مناسب ارائه کند. مطالعه‌ی کمّی گفتار هیجانی با عنوان بازشناسی گفتار هیجانی شناخته می‌شود. بازشناسی یا دسته‌بندی گفتار هیجانی بدین معناست که بتوان حالت هیجانی گوینده را با استفاده از تحلیل انجام شده بر روی سیگنال گفتار مشخص کرد. نخستین گام برای انجام این گونه از مطالعات داشتن مجموعه‌ی دادگان غنی، استاندارد، با کیفیت و البته به تعداد مناسب برای ارزیابی الگوریتم‌های بازشناسی هیجان گفتار است. انواع گسترده و استاندارد مجموعه‌ی دادگان گفتار هیجانی به زبان‌های مختلف وجود دارند. عدم دسترسی پژوهشگران این حوزه به چنین پایگاه‌داده‌ای سبب شده است تا دانش ما پیرامون الگوهای هیجانی و تأثیر آن در زبان فارسی به وضوح آشکار نباشد. این نکته ضرورت وجود تهیه و تولید مجموعه‌ی دادگان گفتار هیجانی به زبان فارسی را نشان می‌دهد. در این مقاله قصد داریم فرآیند طراحی، تهیه و تولید مجموعه‌ی دادگان گفتار هیجانی فارسی معیار مشابه با مجموعه‌ی دادگان گفتار هیجانی برلین که قابلیت استفاده در مطالعات بازشناسی گفتار هیجانی را داراست تشریح کنیم.

کلیدواژه‌ها


عنوان مقاله [English]

An Introduction to the Process of the Design and Production of a Standard Persian Emotional Speech Database

نویسندگان [English]

  • Mahsa Ravanbakhsh 1
  • Saeed Setayeshi 2
1 Institute for Cognitive Sciences Studies (ICSS), Tehran, Iran
2 Professor of Electrical and Computer Engineering, Amirkabir University of Technology, Tehran, Iran
چکیده [English]

Different environmental stimuli are able to influence and change the human emotional states. Speech expresses changes in emotional state in two ways; verbally through vocabulary and syntax and also non-verbally through tone and intonation. Tone and intonation have a paralinguistic role and can alter the meaning of speech. The quantitative processing and study of emotions were first introduced with the concept of affective computing in computer science. The main idea was that the machine could recognize and interpret human emotional states and respond or behave appropriately according to them. The quantitative study of emotional speech is known as speech emotion recognition. Recognition or classification of emotional speech means being able to recognize the speaker’s emotional state using analysis performed on the speech signal. The first step for conducting this type of study is to have a rich, standard, high-quality, and appropriately sized dataset for evaluating speech emotion recognition algorithms. There are a wide variety of standard speech emotion datasets in popular languages. The lack of such a database in the Persian language for researchers in the field of speech emotion recognition has resulted in low quality understanding of emotional patterns and their impact in the Persian language. This point underscores the necessity of creating and producing a speech emotion dataset in the Persian language. In this paper, we describe the designing, preparing, and producing a speech emotion dataset in standard Persian language, similar to the approach the Berlin Emotional Speech Database, which can be used in speech emotion recognition studies.

کلیدواژه‌ها [English]

  • Emotional Speech
  • Emotional Speech Database
  • Emotional State
  • Paralinguistic
  • Speech Emotion Recognition