تحلیلی بر پیکرۀ برچسب‌گذاری‌شدۀ حاصل از محتوای کتاب‌های درسی پایه‌های اول تا ششم ابتدایی

نوع مقاله : علمی-پژوهشی

نویسندگان

1 پژوهشگاه علوم انسانی و مطالعات فرهنگی

2 زبانشناسی، پژوهشکده زبانشناسی، پژوهشگاه علوم انسانی و مطالعات انسانی، تهران، ایران

3 مؤسسه علوم شناختی

چکیده

در سند نقشه جامع علمی کشور، به ارتقای جایگاه زبان فارسی در مقام زبان علم در بین زبان‌های بین‌المللی علمی اشاره شده‌است. یکی‌از راه‌کارهای رسیدن به این هدف کلان، گسترش زبان فارسی ذکر شده‌است. برای رسیدن به این هدف که می‌تواند در حوزۀ سیاستگذاری‌های مربوط به زبان فارسی مطرح شود، به درک بیشتر از محتوای زبانی نیاز است. از این منظور، کتاب‌های درسی دانش‌آموزان که با مفاهیم پایه آموزش می‌بینند اهمیت زیادی پیدا می‌کند. توصیف این ویژگی‌ها می‌تواند به‌هنگام تهیه محتوای زبانی مد نظر قرار گیرد. در این پژوهش، پیکره‌ای از متون درسی کلاس‌های اول تا ششم ابتدایی به حجمی در حدود 208هزار واژه تهیه شده و برچسب‌گذاری شده‌است. این دروس شامل فارسی، علوم، مطالعات اجتماعی و هدیه‌های آسمانی است. تمام جملات دروس مختلف به تفکیک پایه و درس، در فایل‌های متنی ساده حروف‌نگاری شده و پس‌از هنجارسازی در فرایند پیش‌پردازش، در چهار سطح آوایی، بن‌واژه-ای، مقولۀ دستوری و تجزیۀ سازه‌ای نحوی برچسب‌گذاری شده و بررسی شده‌است. نتایج حاصل از این می‌تواند به شناخت بیشتر از محتوای کتاب‌های درسی کمک کند و در حوزه آموزش و سیاستگذاری در این حوزه مفید باشد.

کلیدواژه‌ها


عنوان مقاله [English]

An Account on the Annotated Corpus Developed from Textbooks of Grades 1 to 6

نویسندگان [English]

  • Masood Ghayoomi 1
  • Elham Salehi 2
  • Azam Alijani 3
1 Institute for Humanities and Cultural Studies
2 Linguistics, Faculty of Linguistics, Institute for Humanities and Cultural Studies, Tehran, Iran
3 Institute for Cognitive Science Studies
چکیده [English]

In the comprehensive scientific roadmap of the country (Iran), the promotion of Persian language as a science language among other international science languages is taken into consideration. One of the ways to reach this goal is suggested as expanding the usage of the Persian language. To achieve the goal, which can be raised in the field of Persian language policy making, it is necessary to understand more about the linguistic content properties and the basic concepts that are taught in the textbooks to students. The description of these features can be considered when preparing the language content. In this research, a corpus of textbooks from grades 1 to 6 (the primary school period) is developed that contains around 208,000 words and annotated. These courses include Farsi, Experimental Sciences, Social Studies and Heavenly Gifts. All the sentences of different courses are written in plain text files, separated by grade and course, and after normalization in the pre-processing process, they are annotated automatically at four levels: broad transliteration, lemmatization, part-of-speech and syntactic constituency parsing. The results of this research can help to know more about the content of textbooks and to be useful in the fields of education and policy making in language planning.

کلیدواژه‌ها [English]

  • Corpus
  • Corpus Linguistics
  • Education
  • Policy making in education