نوع مقاله : علمی-پژوهشی
نویسندگان
1 دانشگاه علامه طباطبائی
2 کارشناسی ارشد هوش مصنوعی دانشگاه الزهرا
چکیده
این مقاله از نحوۀ شکلگیری پیکرۀ «چکیدههای مقالات و پایاننامههای دانشگاهی دانشگاه علامه طباطبائی» و همچنین از ویژگیها و امکانات آن میگوید. دادههای این پیکره شامل ده هزار چکیده پایاننامه و 9538 چکیده مقاله (برگرفته از نشریات علمی دانشگاه علامه طباطبائی) با حجمی در حدود سه و نیم میلیون موردواژه است که در قالب طرح پژوهشی گردآوری شدهاند. اهمیت دادههای این پیکره یعنی چکیدههای دانشگاهی از آن جهت است که این نوع دادهها به عنوان متون تألیفیِ فشرده و با محتوای علمی میتوانند تصویرگر ویژگیهای خاص زبان علم به عنوان گونهای از زبان باشند. در این نوشتار برای بیان اهمیت دسترسی به چنین دادههایی و به جهت بررسی امکانات پیکره، محتوایِ واژهایِ بخشی از داده با توجه به مفهوم کلیدیبودگی و فهرست چندپشتهها مورد بررسی قرار گرفت. بررسیها نشان داد محتوای واژگانی این پیکره میتواند پژوهشگران را به سوی طرح برخی فرضیهها سوق دهد. همچنین بررسی چندپشتههای دادههای علمی نشان داد که زبان علم دارای توالیهای واژهای مشخصی است که میتواند تصویرگر نوع خاصی از زبان باشد.
کلیدواژهها
عنوان مقاله [English]
The Corpus of ATU Papers, Theses and Dissertations Abstracts
نویسندگان [English]
1 َAllameh Tabtabai
2 Alzahra university
چکیده [English]
This study explains how to develop the corpus of “ATU Papers, Theses and Dissertations Abstracts” and introduces the different characteristics and features of the corpus. The corpus contains ten thousand thesis abstracts and 9538 article abstracts from the scientific journals of Allameh Tabatabai University with a volume of more than three and a half million tokens. Academic abstracts as brief authored texts with scientific content can depict special linguistic features and therefore, they are valuable documents. In this article, to express the importance of access to such data and to examine some features of the corpus, the word content of a part of the data has been examined and presented according to the concept of keyness and n-grams. The results showed that the lexical content of this corpus could lead researchers to propose some hypotheses. Also, the exploring n-grams of this corpus showed that the language of science has specific word clusters that can depict a particular type of language.
کلیدواژهها [English]