实验五:校园新闻访问量影响因素探究 校园新闻是一所大学传自身的一个重要渠道。人们也往往是通过访问校园新闻了解该校的发展动态。以下分析将以东华理工大学的校园新闻中的学校新闻栏目为例进行。 登录东华理工大学的: http://www.ecit.edu.cn/ , 呈现在我们面前的有学校新闻,院部新闻,以及通知公告和学术讲座等模块。校园主页可以呈现 8 个学校新闻链接,如下图所示: 点击学校新闻右侧的“更多 >> ”按,呈现在我们面前的是每页 20 个,共 117 页,含 2328 个校园新闻记录 ( 截止 2019 年 6 月 8 日星期六 ) 。如下图所示: 请你完成如下问题: 1 、自行学习本课程章节之: 4.8 拓展阅读 _R 语言爬虫之 rvest 包 —— 基础详细介绍 + 示例 4.9 拓展阅读 _rvest 包实战链家爬虫 4.10 拓展阅读 _ 使用 R 与 rvest 套件撷取网页数据 然后从校园新闻网 ( http://news.ecut.edu.cn/120/list.htm ) ,提取前述 2328 条 ( 该数字可能随时间变动,请以最新的为主 ) 校园新闻的标题 (Title) ,发布日期 (PublishDate) ,以及发布单位 (Source) 和浏览次数 (VisitCount) ,并记录下每条新闻所在的页数 (Page) ,形成如下图所示的数据表格。 将你获取的数据保存为“ SchoolNews.csv ”。 2 、不同页面 ( 共 20 页 ) 的新闻访问量之间是否存在显著性差异? 3 、由于校园主页只能保留 8 个校园新闻,因此超过 8 个新闻的就会被隐藏起来,人们只能通过点击“更多 >> ”按才能获得新闻。直观上讲,这一定程度上影响了新闻的访问量。你能否根据你所掌握的知识,推导出每个新闻在校园主页停留的天数。然后分析不同的停留天数之间的访问量之间是否存在显著性差异? 4 、之所以称为“新闻”,一般是刚刚发生的更容易引起人们的关注,而“旧闻”往往无人问津。能否根据新闻发布所处的年、月、季度,以及星期几等因素探讨新闻访问量之间是否存在显著性差异? 5 、能否从新闻发布者的角度分析新闻访问量之间是否存在显著性差异? 6 、能否从标题所含关键词的角度,挖掘出影响新闻访问量的主要关键词? 7 、根据你的综合分析,能否给学校的传部门撰写一份相关新闻发稿建议。 实验要求: 1 、独立完成 2 、提供 R 源代码 3 、提供程序运行截图 4 、提供程序运行结果 5 、尽量做到简洁明了 实验成绩: 完成问题最多、最好的同学获得满分 100 分。其他同学对比满分同学,酌情扣分。一般低于满分同学的完成问题数每 1 问,扣 15 分。 实验报告: 尽量使用 R Markdown 技术生成实验报告,可选择在线提交电子文档 (docx 或者 pdf 格式 ) 或者提供纸质手稿 ( 或打印稿 ) 。 实验拓展: 如果同学们完成较好,分析到位,或者希望继续深究,可自行决定是否拓展为期终课程论文。