طراحی و تهیۀ دادگان برچسب‌خورده فارسی از اخبار مرتبط با همه‌گیری کووید-19 به منظور تشخیص اخبار جعلی

زاهد, فروغ; بحرانی, محمد; منصوری, علیرضا

doi:10.30465/lsi.2024.47711.1729

طراحی و تهیۀ دادگان برچسب‌خورده فارسی از اخبار مرتبط با همه‌گیری کووید-19 به منظور تشخیص اخبار جعلی

نوع مقاله : علمی-پژوهشی

نویسندگان

¹ گروه رایانه، دانشکده آمار، ریاضی و رایانه، دانشگاه علامه طباطبائی، تهران، ایران

² پژوهشگاه ارتباطات و فناوری اطلاعات، تهران، ایران

10.30465/lsi.2024.47711.1729

چکیده

در این مقاله یک پیکرۀ برچسب‌خورده، به‌ منظور به‌کارگیری در تشخیص اخبار جعلی با حدود 5000 پست مربوط به اخبار همه‌گیری کووید-19 از پیام‌رسان تلگرام استخراج شده و برچسب‌زنی می‌شود. فرایند ساخت پیکره در دو مرحله انجام می‌پذیرد. مرحلۀ اول شامل جمع‌آوری و پیش‌پردازش داده‌ها و مرحلۀ دوم شامل برچسب‌گذاری آنها می‌باشد. در مرحلۀ اول، داده‌ها فیلتر می‌شوند و بعد از انجام پردازش‌های لازم‌ برروی آنها، در مرحلۀ دوم، بر اساس یک شیوه‌نامه، اقدام به برچسب‌گذاری می‌شود. در مرحلۀ برچسب‌گذاری، از هفت عنوان موردنظر برای وظایف، استفاده می‌گردد و هر پست خبری با توجه به این هفت وظیفه برچسب‌گذاری می‌شود. ایجاد یک چهارچوب مناسب (شیوه‌نامه) برای برچسب‌زنی یکی از اقدامات مهم در این مرحله می‌باشد. شیوه‌نامه در اختیار دو برچسب‌زن خبره که بدین‌منظور آموزش دیده‌اند قرار می‌گیرد و اخبار از لحاظ هفت وظیفۀ 1) صحیح یا جعلی بودن 2) سیاسی بودن 3) بالا بردن سطح آگاهی عمومی، دادن روحیه یا دادن یک توصیه به خواننده 4) مطالب مربوط به دارو و درمان یا مراقبت‌های بهداشتی 5) آمار مرگ و میر 6) داشتن محتوای حاوی مطالب تنفرآمیز، سرزنش، عیب‌جویی، منفی بافی و 7) ارزش داشتن برای بررسی واقعیت، مورد بررسی قرار گرفته و بر این اساس، برچسب درست، نادرست یا خنثی می‌گیرند. در صورت عدم توافق بین دو برچسب‌زن، از برچسب‌زن سوم نظرخواهی می‌شود. برچسب‌دهی اخبار طوری انجام می‌گیرد که در نهایت، دسته‌های متوازنی در وظیفۀ صحیح یا جعلی بودن اخبار به دست آید.

کلیدواژه‌ها

عنوان مقاله [English]

Design and Preparation of Persian Labeled Dataset from COVID-19 News for Fake News Detection

نویسندگان [English]

Forough Zahed ¹
Mohammad Bahrani ¹
Alireza Mansouri ²

¹ Department of Computer Science, Faculty of Statistics, Mathematics and Computer, Allameh Tabataba'i University, Tehran, Iran

² ICT Research Institute (ITRC), Tehran, Iran

چکیده [English]

Fake news detection using content features have attracted many researchers in the last few years. These approaches rely mainly on news datasets and analyzing their style and content. Although there are some fake news datasets in English, fake news detection in the Persian language suffers from the lack of suitable datasets. This article introduces a manually labeled Persian fake news dataset, containing about 5000 posts related to COVID-19 and extracted from Telegram messenger. The process of building the dataset is done in two stages: 1) data collection and pre-processing; and 2) labeling manually using a settled rule set and an established framework. In the labeling stage, seven tasks have been used for labeling, including: 1) Factual; 2) Hate, blame, and negative speech; 3) Rising moral, encouragement, and advise; 4) Political news; 5) Death statistics; 6) Cure, medicine, and health care; and 7) Worth to be considered for fact checking. For each labeling task, 3 labels including “Yes”, “No”, and “Can’t decide” are used. The main labeling task, i.e. “Factual” task is assigned to two annotators and in case of disagreement between annotators, the label assigned by third annotator is accepted. The kappa measure for inter-annotators agreement obtained equal to 0.706 that is in substantial range. This dataset is about 10 times larger in comparison to similar Persian datasets and can be used for not only fake news studies but also some other Persian Natural Language Processing (NLP) studies.

کلیدواژه‌ها [English]

fake news
COVID-19 pandemic
labeled dataset
social networks

دوره 19، شماره 37 - شماره پیاپی 1
اسفند 1402
صفحه 173-192

تعداد مشاهده مقاله: 66
تعداد دریافت فایل اصل مقاله: 17

طراحی و تهیۀ دادگان برچسب‌خورده فارسی از اخبار مرتبط با همه‌گیری کووید-19 به منظور تشخیص اخبار جعلی

Design and Preparation of Persian Labeled Dataset from COVID-19 News for Fake News Detection

دوره 19، شماره 37 - شماره پیاپی 1
اسفند 1402
صفحه 173-192

فایل ها

هم رسانی

ارجاع به این مقاله

آمار

طراحی و تهیۀ دادگان برچسب‌خورده فارسی از اخبار مرتبط با همه‌گیری کووید-19 به منظور تشخیص اخبار جعلی

Design and Preparation of Persian Labeled Dataset from COVID-19 News for Fake News Detection

دوره 19، شماره 37 - شماره پیاپی 1اسفند 1402صفحه 173-192

فایل ها

هم رسانی

ارجاع به این مقاله

آمار

دوره 19، شماره 37 - شماره پیاپی 1
اسفند 1402
صفحه 173-192