نوع مقاله : علمی-پژوهشی
نویسنده
پژوهشگاه علوم انسانی و مطالعات فرهنگی
چکیده
گفتمان خبری گونهای تحلیل گفتمان است که به تحلیل ساختار گفتمان خبری میپردازد. باتوجهبه این که در قالببندی اخبار دو ویژگی انتخاب و برجستگی در نمود ارتباطی خبر نهفته است، از ساختار هرم وارونۀ خبر برای درجهبندی اهمیت بخشهای گفتمانی خبر استفاده میشود. اگرچه رعایت ساختار هرم وارونۀ خبر مطلوب است، گاهی ممکن است در گفتمان خبری این ساختار دچار تغییر شود که در این مقاله تلاش میشود با کمک تحلیل آماری، به تحلیل ساختار گفتمان وبگاههای خبری فارسی پرداخته شود. برای رسیدن به هدف میتوان از علم داده استفاده کرد. این بینرشتهای از جنبۀ علمی به تحلیل داده، یافتن مفاهیم ضمنی بهدستآمده از تحلیل دادهها و استخراج دانش از دادهها میپردازد. در چارچوب علم داده به بررسی پیکرهای متون خبری فارسی پرداخته شده و وجود رابطۀ همبستگی معنایی میان عنوان خبر و محتوای خبر در ساختار هرم وارونۀ خبر مورد مطالعه قرار میگیرد. برای دستیابی به این هدف، با استفاده از روش خزش، یک پیکرۀ خبری نسبتاً بزرگ با حجمی بالغ بر 14میلیارد واژه از 24 وبگاه خبری بهدست آمدهاست. پساز پیشپردازش و اعمال یکدستی نسبی در این پیکره، در چارچوب معناشناسی توزیعی، بردار عنوان خبر و متن خبر با استفاده از مدل بردارسازی واژه ورد2وک بهدست آمده و براساس آن بردار هر خبر ساخته شدهاست. پساز بخشبندی محتوای هر خبر براساس هرم وارونۀ خبر به سه قسمت سرنخ (لید)، بدنه و ارائه توضیحات بیشتر درمورد سرنخ، با استفاده از ضریب همبستگی پیرسون، میزان همبستگی میان عنوان و هر یک از سه بخش خبر محاسبه شدهاست. اگرچه ضریب همبستگی پیرسون برای حجم زیادی از خبرها مثبت بود، ارزش صفر و عدم وجود همبستگی برای خبرها یافت شد. بهطور متوسط، همبستگی میان عنوان و بدنۀ خبر بیشاز همبستگی میان عنوان و توسعۀ سرنخ بود. این پژوهش میتواند بهعنوان روشی برای دقت در انتخاب عنوان و محتوا و پالایش خبری منطبقبر هرم وارونه استفاده گردد.
کلیدواژهها
عنوان مقاله [English]
Evaluating the Structure of the Inverted Pyramid in the Big Persian News Corpus: News Discourse Analysis based on the Correlation Coefficient between Title and News Content
نویسنده [English]
Institute for Humanities and Cultural Studies
چکیده [English]
News discourse is a type of discourse analysis that deals with the analysis of news discourse. Due to the fact that in the formatting of news there are two hidden features of selection and prominence in the communication representation of news, the inverted pyramid of news is used to grade the importance of the discourse parts of the news. Although it is desirable to meet the structure of the inverted pyramid of news, sometimes this structure may change. In this article, we put an effort to analyse the discourse analysis of Persian news websites with the help of statistical analysis. To research the goal, data science can be used. This inter-discipline deals with data analysis from a scientific aspect, finding implicit concepts to be obtained from data analysis and extracting knowledge from the data. In the framework of data science, we examined the Persian news corpus and studied the existence of semantic correlation between the news title and the news content based on the structure of the news inverted pyramid. To achieve the goal, by using the crawling method, a relatively large news corpus with a volume of 14 billion words has been obtained from 24 news websites. After pre-processing and normalizing the corpus, in the framework of distributional semantics, the vector of title news and content have been created by using the Word2Vec tool for creating the vector model to have the vector representation of each news. After segmenting news content into three parts (lead, body and further explanation about the lead) according to the inverted pyramid, the Pearson correlation coefficient has been used to calculate the correlation between the title and each part of the news. Although Pearson's correlation coefficient was positive for a large number of news, zero value and no correlation was found for the news. On average, the correlation between the headline and the news lead and body was higher than the correlation between the headline and the lead development. This research can be used as a method to carefully select the title and content and filter the news according to the inverted pyramid structure.
کلیدواژهها [English]