An Account on the Annotated Corpus Developed from Textbooks of Grades 1 to 6

Document Type : .

Authors
1 Institute for Humanities and Cultural Studies
2 Linguistics, Faculty of Linguistics, Institute for Humanities and Cultural Studies, Tehran, Iran
3 Institute for Cognitive Science Studies
Abstract
In the comprehensive scientific roadmap of the country (Iran), the promotion of Persian language as a science language among other international science languages is taken into consideration. One of the ways to reach this goal is suggested as expanding the usage of the Persian language. To achieve the goal, which can be raised in the field of Persian language policy making, it is necessary to understand more about the linguistic content properties and the basic concepts that are taught in the textbooks to students. The description of these features can be considered when preparing the language content. In this research, a corpus of textbooks from grades 1 to 6 (the primary school period) is developed that contains around 208,000 words and annotated. These courses include Farsi, Experimental Sciences, Social Studies and Heavenly Gifts. All the sentences of different courses are written in plain text files, separated by grade and course, and after normalization in the pre-processing process, they are annotated automatically at four levels: broad transliteration, lemmatization, part-of-speech and syntactic constituency parsing. The results of this research can help to know more about the content of textbooks and to be useful in the fields of education and policy making in language planning.
Keywords

اسلامی، محرم؛ شریفی آتشگاه، مسعود؛ علیزاده لمجیری، صدیقه؛ و زندی، طاهره (1383). «واژگان زایای زبان فارسی». مجموعه مقالات اولین کارگاه زبان فارسی و رایانه. دانشگاه تهران، 6-11.
بی‌جن‌خان، محمود (1383). «نقش پیکره زبانی در نوشتن دستور زبان: معرفی یک نرم‌افزار». مجله زبان‌شناسی.سال نوزدهم، شماره 38، 48-67.
بابادی، امین؛ غیاث‌نژادعمران، پویا؛ و قاسم‌ثانی، غلامرضا (1391). «استفاده از یادگیری ماشین در ریشه‌یابی کلمات فارسی». مجموعه مقالات هجدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران، دانشگاه صنعتی شریف، دانشکده مهندسی رایانه، تهران، ایران.
پاهنگ، نظام­الدین؛ مهدیون، روح اله؛ و یاریقلی، بهبود (1396). «بررسی کیفیت مدارس و شناسایی عوامل موثر بر آن: پژوهشی ترکیبی». دوفصلنامه علمی پژوهشی مدیریت مدرسه. 5 (1): 173-193.
تشکری، مسعود؛ و میبدی، محمدرضا (1380). «طراحی یک ریشه‌یاب خودکار برای واژگان فارسی». مجموعه مقالات هفتمین کنفرانس ملی سالانه انجمن کامپیوتر ایران، دانشگاه صنعتی شریف، دانشکده مهندسی رایانه، تهران، ایران.
دهقان، محمدحسین؛ ملاعباسی، محمد؛ فیلی، هشام؛ و شاکری، آزاده (1396). «تولید درخت‌بانک سازه‌ای زبان فارسی به روش نیمه‌خودکار». در مجموعه مقالات چهارمین همایش ملی زبان‌شناسی رایانشی، نشر نویسه پارسی، صص: 63-82.
رجبی، ابوالفضل؛ و احمدوند، شجاع (1401). «سیاست‌گذاری زبانی و جایگاه زبان فارسی در سیاست‌های زبانی جمهوری اسلامی ایران»، نشریه مطالعات ملی، 23 (1): 55-77.
صدری افشار، غلامحسین؛ حکمی، نسترن؛ و حکمی، نسرین (1381). فرهنگ فارسی. تهران: فرهنگ معاصر.
طباطبایی، شهره؛ و صراف رضایی، ایمان (1396). «پیکره سازه: درختب‌انک بزرگ زبان فارسی در دستور سازه‌ای». در مجموعه مقالات چهارمین همایش ملی زبان‌شناسی رایانشی، نشر نویسه پارسی، صص: 41-61.
عاصی، مصطفی (1376). «پایگاه داده‌های زبان فارسی». مجموعه مقالات سومین کنفرانس زبان‌شناسی، دانشگاه علامه طباطبایی و پژوهشگاه علوم انسانی و مطالعات فرهنگی.
عاصی، مصطفی؛ و قندی، سعیده (1394). «پایگاه داده‌های زبان فارسی و پیکره تاریخی ٱن». در مجموعه مقالات نخستین همایش ملی زبان‌شناسی پیکره‌ای، نشر نویسه پارسی، 193-220.
عاصی، مصطفی؛ و ترابی، منیره (1391). «ارائه و معرفی پیکره‌ای برای فارسی‌آموزان خارجی». مجموعه مقالات دانشگاه علامه طباطبایی، جلد دوم، 505-516، ش281.
علایی­ابوذر، الهام؛ پاک‌نیت، نصراله؛ حجت‌پناه، علی‌اصغر؛ زالی، مجتبی؛ و آقالویی آغمیونی، محمدهادی (1400). «معرفی یک پیکرۀ متنی تخصصی: پیکرۀ پژوهش­نامه». نشریه پژوهش‌های زبان‌شناسی تطبیقی، 11(22): 271-289.
علایی­ابوذر، الهام (1399). «بررسی امکان افزایش صحت یک ابزار برچسب­دهی به اجزای کلام در فارسی». نشریه پژوهش‌های زبان‌شناسی تطبیقی،  10(19): 95-110.
غریبی، افسانه (1391). «واکاوی نیازهای عمومی زبانی فارسی‌آموزان». پژوهش­نامۀ آموزش زبان فارسی به غیرفارسی زبانان. 1(1): 61-78.
فرزانه‌فر، حامد (1389). سیستم برچسب‌گذاری و ابهام‌زدایی خودکار اجزای کلام برای پیکره متنی زبان فارسی. پایان‌نامه کارشناسی ارشد، دانشگاه صنعتی اصفهان، دانشکده برق و رایانه، تهران، ایران.
قیومی، مسعود (1383). پیش‌بینی واژه در پردازش رایانه‌ای زبان فارسی. پایان‌نامه کارشناسی ارشد دانشگاه آزاد اسلامی، واحد تهران مرکز.
قیومی، مسعود (1398). «گذار از بن‌واژه‌سازی قاعده‌مند به آماری در فارسی». مجموعه مقالات پنجمین همایش ملی زبان‌شناسی رایانشی. تهران: نشر نویسه پارسی.
قیومی، مسعود (1401). «ارزیابی ساختار هرم وارونه در پیکرة بزرگ خبری فارسی: تحلیل گفتمان خبری براساس همبستگی میان عنوان و محتوای خبر». مجله زبان و زبان‌شناسی. 18(35): 21-45.
محسنی، مهدی. (1386) سیستم برچسب‌گذاری و ابهام‌زدایی خودکار اجزای کلام برای پیکره متنی زبان فارسی. پایان‌نامه کارشناسی ارشد، دانشگاه علم و صنعت، دانشکده رایانه، تهران، ایران.
AleAhmad, A.; Amiri, H.; Darrudi, E.; Rahgozar, M.; and Oroumchian, F. (2009). “Hamshahri: A standard Persian text collection”. Knowledge- Based Systems, 22, 382–387.
Amiri, H.; Hojjat, H.; and Oroumchian, F. (2007). “Investigation on a Feasible Corpus for Persian POS Tagging”. In Proceedings of the 12th International CSI Computer Conference, Iran.
Assi, M. (1997). “Farsi linguistic database (FLDB)”. International Journal of Lexicography, 10(3): 5.
Assi, M.; and HajiAbdolhosseini, M. (2000). “Grammatical tagging of a Persian corpus”. International Journal of Corpus Linguistics, 5(1):69–82.
Atkins, S.; Clear, J.; and Ostler, N. (1992). “Corpus design criteria”. Literary and Linguistic Computing, 7(1), 1–16.
Bijankhan, M.; Sheykhzadegan, J.; Bahrani, M.; and Ghayoomi, M. (2011). “Lessons from building a Persian written corpus: Peykare”, Language Resources and Evaluation, 45: 143–164.
Bohnet, B. (2009). “Efficient parsing of syntactic and semantic dependency structures”. In Proceedings of the 13th Conference on Computational Natural Language Learning: Shared Task, pp: 67–72, Stroudsburg, PA, USA.
Brants, T. (2000). “TnT - A statistical part-of-speech tagger”. In Proceedings of the Association for Neuro-Linguistic Programming and NAACL, pp. 224–231.
Chomsky, N. (1957). Syntactic Structures. The Hague: Mouton.
Danesh, M.; Minaei, B.; and Kashefi, O. (2011). “Challenging massive information retrieval in Persian”. International Journal of Information and Education Technology, Vol. 1, No. 3.
Darrudi, E.; Hejazi, M.R.; and Oroumchian, F. (2004). “Assessment of a modern Farsi corpus”. In Proceedings of the 2nd Workshop on Information Technology and its Disciplines, pp: 73–77, Kish Island, Iran.
Denis, P.; and Sagot, B. (2009). “Coupling an annotated corpus and a morpho-syntactic lexicon for state-of-the-art POS tagging with less human effort”. In Proceedings of the Pacific Asia Conference on Language, Information and Computation, Hong Kong, Chine.
de Saussure, F. (1916). Cours de Linguistique Generale, Lausanne, Paris: Payot.
Dolamic, L.; and Savoy, J. (2009). “Persian language, Is stemming efficient?”. In Proceedings of the 20th International Conference on Database and Expert Systems Applications, eds. Tjoa, A. M. and Wagner, R.; IEEE Computer Society, pp. 388–392.
Eghbalzadeh, H.; Hosseini,  B.; Khadivi, S.; and Khodabakhsh,  A. (2012). “Persica: A Persian corpus for multipurpose text mining and natural language processing”. In Proceedings of the 6th International Symposium on Telecommunications. IEEE. Tehran.
Ghayoomi, M. (2012a). “Bootstrapping the development of an HPSG-based treebank for Persian”. Linguistic Issues in Language Technology, CSLI Publications, 7 (19).
Ghayoomi, M. (2012b). “From grammar rule extraction to treebanking: A bootstrapping approach”. In Proceedings of the 8th International Conference on Language Resources and Evaluation, pp:1912–1919, Istanbul, Turkey.
Ghayoomi, M. (2014). From HPSG-based Persian Treebanking to Parsing: Machine Learning for Data Annotation. PhD Dissertation. Freie Universität Berlin, Berlin, Germany.
Ghayoomi, M.; and Kuhn, J. (2014). “Converting an HPSG-based treebank into its parallel dependency-based treebank”. In Proceedings of the 9th International Conference on Language Resources and Evaluation, pp. 802–809, Reykjavik, Iceland.
Jadidinejad, A.; Mahmoudi, F.; and Dehdari, J. (2010). “Evaluation of Perstem: A simple and efficient stemming algorithm for Persian”. In Proceedings of the Multilingual Information Access Evaluation I. Text Retrieval Experiments, eds. Peters, C.; Nunzio, G. D.; Kurimo, M.; Mandl, T.; Mostefa, D.; Peñas, A.; and Roda, G.; Heidelberg, Germany: Springer, vol. 6241 of Lecture Notes in Computer Science, pp. 98–101.
Jurafsky, D.; and Martin, H. (2023). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition,
Klein, D.; and Manning, C.D. (2003). “Accurate unlexicalized parsing”. In Proceedings of the 41st Meeting of the Association for Computational Linguistics, pp. 423-430.
Leech, G. (2004). “Adding linguistic annotation,” chapter 2, Edited by Wynne, M., Developing Linguistic Corpora: A Guide to Good Practice. AHDS. Literature, Languages and Linguistics. The Oxford Text Archive.
Long, M. H. (2005). Second Language Needs Analysis. Cambridge: Cambridge University Press.
McDonald, R.; Pereira, F.; Ribarov, K.; and Hajič, J. (2005). “Non-Projective dependency parsing using spanning tree algorithms”. In Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing, pp: 523-530, Vancouver, British Columbia, Canada. Association for Computational Linguistics.
Mokhtaripour, A.; and Jahanpour, S. (2006). “Introduction to a new Farsi stemmer”. In Proceedings of the 15th ACM International Conference on Information and Knowledge Management, pp. 826–827, New York, NY, USA: ACM.
Mohammadi, A.; Hajiaghajani, S.; and Bahrani, M. (2023). “ACO-tagger: A novel method for part-of-speech tagging using Ant Colony optimization”. ArXiv: 2303.16760. Cornell University.
Mollanorozy, S.; Tanti, M.; and Nissim, M. (2023). “Cross-lingual transfer learning with Persian”. In Proceedings of the 5th Workshop on Research in Computational Linguistic Typology and Multilingual Natural Language Processing, pp 89-95.
MosaviMiangah, T. (2006). “Automatic lemmatization of Persian words”. Journal of Quantitative Linguistics, 13, 1–15.
Müller, T.; Cotterell, R.; Fraser, A.; and Schütze, H. (2015). “Joint lemmatization and morphological tagging with Lemming”. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal: Association for Computational Linguistics, pp. 2268–2274.
Müller, T.; Schmid, H.; and Schütze, H. (2013). “Efficient higher-order CRFs for morphological tagging”. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, Seattle, Washington, USA: Association for Computational Linguistics, pp. 322–332.
Nivre, J.; Hall, J.; and Nilsson, J. (2006). “Maltparser: A data-driven parser generator for dependency parsing”. In Proceedings of the 15th International Conference on Language Resources and Evaluation, Genoa, Italy, pp: 2216-2219.
Oroumchian, F.; Tasharofi, S.; Amiri, H.; Hojjat, H.; and Raja, F. (2006). Creating a Feasible Corpus for Persian POS Tagging, Technical Report TR3/06, University of Wollongong in Dubai.
Petrov, S.; Barrett, L.; Thibaux, R.; and Klein, D. (2006). “Learning accurate, compact, and interpretable tree annotation”. In Proceedings of the 21st International Conference on Computational Linguistics and Association for Computational Linguistics, pp. 433–440.
Pollard, C. J.; and Sag, I. A. (1994). Head-Driven Phrase Structure Grammar. Chicago: University of Chicago Press.
Rasooli, M. S.; Kouhestani, M.; and Moloodi, A. (2013). “Development of a Persian syntactic dependency treebank”. In Proceedings of the HLT Conference of the NAACL, pp. 306–314, Atlanta, Georgia.
Sabouri, S.; Rahmati, E.; Gooran, S.; and Sameti, H. (2022) “Naab: A ready-to-use plug-and-play corpus for Farsi”. In arXiv:2208.13486v1, Cornell University.
Sagot, B.; Walther, G.; Faghiri, P.; and Samvelian, P. (2011). “A new morphological lexicon and a POS tagger for the Persian Language”. In International Conference in Iranian Linguistics, Uppsala, Sweden.
Schmit, H. (2004). “Efficient parsing of highly ambiguous context-free grammars with bit vectors”. In Proceedings of the 20th International conference on Computational Linguistics. Geneva, Switzerland.
Schütze, H. (1995). “Distributional part-of-speech tagging”. In Proceedings of the 7th Conference on European Chapter of the Association for Computational Linguistics, pp: 141–148. Morgan Kaufmann Publishers Inc.
Seraji, M. (2011). “A statistical part-of-speech tagger for Persian”. In Proceedings of the 18th Nordic Conference of Computational Linguistics NODALIDA, pp. 340–343, Riga, Latvia.
Seraji, M.; Megyesi, B.; and Nivre, J. (2012). “Bootstrapping a Persian dependency treebank”. Linguistic Issues in Language Technology, 7(18).
Shamsfard, M.; and Fadaee, H. (2008). “A hybrid morphology-based POS tagger for Persian”. In Proceedings of the 6th International Conference on Language Resources and Evaluation, eds. Calzolari, N.; Choukri, K.; Maegaard, B.; Mariani, J.; Odjik, J.; Piperidis, S.; and Tapias, D.; Marrakech, Morocco: European Language Resources Association.
Shamsfard, M.; Jafari, H.S.; and Ilbeygi, M. (2010). “STeP-1: A set of fundamental tools for Persian text processing”. In Proceedings of the 7th International Conference on Language Resources and Evaluation, pp: 859-865, Valletta, Malta.
Sharifloo, A.; and Shamsfard, M. (2008). “A bottom up approach to Persian stemming”. In Proceedings of the 3rd International Joint Conference on Natural Language Processing, pp. 583–588.
Tashakori, M.; Meybodi, M. R.; and Oroumchian, F. (2002). “Bon: The Persian stemmer”. In Proceedings of the 1st EuroAsian Conference on Information and Communication Technology, pp. 487–494, London, UK, UK: Springer-Verlag.
Tasharofi, S.; Raja, F.; Oroumchian, F.; and Rahgozar, M. (2007). “Evaluation of statistical part of speech tagging of Persian text”. In Proceedings of the International Symposium on Signal Processing and its Applications, Sharjah, (U.A.E.).
Tesnière, L. (1953). Esquisse d'une syntaxe structural. Paris: Librairie C. Klincksieck.
Tesnière, L. (1959). Éléments de syntaxe structural. Paris: Librairie C. Klincksieck.
Tesnière, L. (1980). Grundzüge der strukturalen Syntax. Stuttgart: Klett-Cotta. Translated by Ulrich Engel.