ارزیابی ساختار هرم وارونه در پیکرۀ بزرگ خبری فارسی: تحلیل گفتمان خبری براساس همبستگی میان عنوان و محتوای خبر

نوع مقاله : علمی-پژوهشی

نویسنده

پژوهشگاه علوم انسانی و مطالعات فرهنگی

چکیده

گفتمان خبری گونه‌ای تحلیل گفتمان است که به تحلیل ساختار گفتمان خبری می‌پردازد. باتوجه‌به این که در قالب‌بندی اخبار دو ویژگی انتخاب و برجستگی در نمود ارتباطی خبر نهفته است، از ساختار هرم وارونۀ خبر برای درجه‌بندی اهمیت بخش‌های گفتمانی خبر استفاده می‌شود. اگرچه رعایت ساختار هرم وارونۀ خبر مطلوب است، گاهی ممکن است در گفتمان خبری این ساختار دچار تغییر شود که در این مقاله تلاش می‌شود با کمک تحلیل آماری، به تحلیل ساختار گفتمان وبگاه‌های خبری فارسی پرداخته شود. برای رسیدن به هدف می‌توان از علم داده استفاده کرد. این بین‌رشته‌ای از جنبۀ علمی به تحلیل داده، یافتن مفاهیم ضمنی به‌دست‌آمده از تحلیل داده‌ها و استخراج دانش از داده‌ها می‌پردازد. در چارچوب علم داده به بررسی پیکره‌ای متون خبری فارسی پرداخته شده و وجود رابطۀ همبستگی معنایی میان عنوان خبر و محتوای خبر در ساختار هرم وارونۀ خبر مورد مطالعه قرار می‌گیرد. برای دستیابی به این هدف، با استفاده از روش خزش، یک پیکرۀ خبری نسبتاً بزرگ با حجمی بالغ بر 14میلیارد واژه از 24 وبگاه خبری به‌دست آمده‌است. پس‌از پیش‌پردازش و اعمال یکدستی نسبی در این پیکره، در چارچوب معناشناسی توزیعی، بردار عنوان خبر و متن خبر با استفاده از مدل بردارسازی واژه ورد2وک به‌دست آمده و براساس آن بردار هر خبر ساخته شده‌است. پس‌از بخش‌بندی محتوای هر خبر براساس هرم وارونۀ خبر به سه قسمت سرنخ (لید)، بدنه و ارائه توضیحات بیشتر درمورد سرنخ، با استفاده از ضریب همبستگی پیرسون، میزان همبستگی میان عنوان و هر یک از سه بخش خبر محاسبه شده‌است. اگرچه ضریب همبستگی پیرسون برای حجم زیادی از خبرها مثبت بود، ارزش صفر و عدم وجود همبستگی برای خبرها یافت شد. به‌طور متوسط، همبستگی میان عنوان و بدنۀ خبر بیش‌از همبستگی میان عنوان و توسعۀ سرنخ بود. این پژوهش می‌تواند به‌عنوان روشی برای دقت در انتخاب عنوان و محتوا و پالایش خبری منطبق‌بر هرم وارونه استفاده گردد.

کلیدواژه‌ها


عنوان مقاله [English]

Evaluating the Structure of the Inverted Pyramid in the Big Persian News Corpus: News Discourse Analysis based on the Correlation Coefficient between Title and News Content

نویسنده [English]

  • Masood Ghayoomi
Institute for Humanities and Cultural Studies
چکیده [English]

News discourse is a type of discourse analysis that deals with the analysis of news discourse. Due to the fact that in the formatting of news there are two hidden features of selection and prominence in the communication representation of news, the inverted pyramid of news is used to grade the importance of the discourse parts of the news. Although it is desirable to meet the structure of the inverted pyramid of news, sometimes this structure may change. In this article, we put an effort to analyse the discourse analysis of Persian news websites with the help of statistical analysis. To research the goal, data science can be used. This inter-discipline deals with data analysis from a scientific aspect, finding implicit concepts to be obtained from data analysis and extracting knowledge from the data. In the framework of data science, we examined the Persian news corpus and studied the existence of semantic correlation between the news title and the news content based on the structure of the news inverted pyramid. To achieve the goal, by using the crawling method, a relatively large news corpus with a volume of 14 billion words has been obtained from 24 news websites. After pre-processing and normalizing the corpus, in the framework of distributional semantics, the vector of title news and content have been created by using the Word2Vec tool for creating the vector model to have the vector representation of each news. After segmenting news content into three parts (lead, body and further explanation about the lead) according to the inverted pyramid, the Pearson correlation coefficient has been used to calculate the correlation between the title and each part of the news. Although Pearson's correlation coefficient was positive for a large number of news, zero value and no correlation was found for the news. On average, the correlation between the headline and the news lead and body was higher than the correlation between the headline and the lead development. This research can be used as a method to carefully select the title and content and filter the news according to the inverted pyramid structure.

کلیدواژه‌ها [English]

  • news corpus
  • Pearson correlation coefficient
  • distributional semantics
  • Word2Wok
  • news inverted pyramid