پیکره چکیده‌های مقالات و پایان‌نامه‌های دانشگاهی دانشگاه علامه طباطبائی

میرزائی, آزاده; صدقی, فاطمه

doi:10.30465/lsi.2023.43633.1644

پیکره چکیده‌های مقالات و پایان‌نامه‌های دانشگاهی دانشگاه علامه طباطبائی

نوع مقاله : علمی-پژوهشی

نویسندگان

آزاده میرزائی ¹

فاطمه صدقی ²

¹ دانشگاه علامه طباطبائی

² کارشناسی ارشد هوش مصنوعی دانشگاه الزهرا

10.30465/lsi.2023.43633.1644

چکیده

این مقاله از نحوۀ شکل‌گیری پیکرۀ «چکیده‌های مقالات و پایان‌نامه‌های دانشگاهی دانشگاه علامه طباطبائی» و همچنین از ویژگی‌ها و امکانات آن می‌گوید. داده‌های این پیکره شامل ده هزار چکیده پایان‌نامه و 9538 چکیده مقاله (برگرفته از نشریات علمی دانشگاه علامه طباطبائی) با حجمی در حدود سه و نیم میلیون موردواژه است که در قالب طرح پژوهشی گردآوری شده‌اند. اهمیت داده‌های این پیکره یعنی چکیده‌های دانشگاهی از آن جهت است که این نوع داده‌ها به عنوان متون تألیفیِ فشرده و با محتوای علمی می‌توانند تصویرگر ویژگی‌های خاص زبان علم به عنوان گونه‌ای از زبان باشند. در این نوشتار برای بیان اهمیت دسترسی به چنین داده‌هایی و به جهت بررسی امکانات پیکره، محتوایِ واژه‌ایِ بخشی از داده با توجه به مفهوم کلیدی‌بودگی و فهرست چندپشته‌ها مورد بررسی قرار گرفت. بررسی‌ها نشان داد محتوای واژگانی این پیکره می‌تواند پژوهشگران را به سوی طرح برخی فرضیه‌ها سوق دهد. همچنین بررسی چندپشته‌های داده‌های علمی نشان داد که زبان علم دارای توالی‌های واژه‌ای مشخصی است که می‌تواند تصویرگر نوع خاصی از زبان باشد.

کلیدواژه‌ها

پیکره

زبان علم

کلیدی‌بودگی

چندپشته

زبان فارسی

عنوان مقاله English

The Corpus of ATU Papers, Theses and Dissertations Abstracts

نویسندگان English

Azadeh Mirzaei ¹

Fatemeh Sedghi ²

¹ َAllameh Tabtabai

² Alzahra university

چکیده English

This study explains how to develop the corpus of “ATU Papers, Theses and Dissertations Abstracts” and introduces the different characteristics and features of the corpus. The corpus contains ten thousand thesis abstracts and 9538 article abstracts from the scientific journals of Allameh Tabatabai University with a volume of more than three and a half million tokens. Academic abstracts as brief authored texts with scientific content can depict special linguistic features and therefore, they are valuable documents. In this article, to express the importance of access to such data and to examine some features of the corpus, the word content of a part of the data has been examined and presented according to the concept of keyness and n-grams. The results showed that the lexical content of this corpus could lead researchers to propose some hypotheses. Also, the exploring n-grams of this corpus showed that the language of science has specific word clusters that can depict a particular type of language.

کلیدواژه‌ها English

corpus

Language of science

keyness

N-gram

Persian Language

دوره 18، شماره 35
به یاد خانم دکتر سلیمه زمانی (۱۴۰۲_۱۳۶۵)
تیر 1401
صفحه 127-145

XML

اصل مقاله 683.89 K

تعداد مشاهده مقاله	335
تعداد دریافت فایل اصل مقاله	292

پیکره چکیده‌های مقالات و پایان‌نامه‌های دانشگاهی دانشگاه علامه طباطبائی

The Corpus of ATU Papers, Theses and Dissertations Abstracts

دوره 18، شماره 35به یاد خانم دکتر سلیمه زمانی (۱۴۰۲_۱۳۶۵)تیر 1401صفحه 127-145

فایل ها

هم رسانی

ارجاع به این مقاله

آمار

دوره 18، شماره 35
به یاد خانم دکتر سلیمه زمانی (۱۴۰۲_۱۳۶۵)
تیر 1401
صفحه 127-145