中文信息处理实验课程作业 一. 作业名称 :语料库加工 二. 作业主题 :用字统计和字表比较 三. 作业目的 : (1) 了解字频统计的基本内容和方法; (2) 思考字频统计不同方法的优劣。 四. 作业要求 : 1、 认真阅读文件夹“语料库在线”中全部文件; 2、 不要使用字词频统计软件或集成功能模块(如数据透视表等),尝试手工处理并统计“正文文本 .txt ”的下列用字情况: (1) 全文字表(按“正文文本”原始顺序排列、一字一行的字表,带序号); (2) 全文字种(“正文文本”中出现的全部不重复的字符,带出现次数); (3) 两表交集(既在“正文文本”中出现、又在“常用字表”中出现的字符); (4) 全文独有(只在“正文文本”中出现,不在“常用字表”中出现的字符); (5) 字表独有(只在“常用字表”中出现,不在“正文文本”中出现的字符); 说明: i. “ 全文 ”指的是“正文文本 .txt ”,“ 字表 ”指的是“ 3-3_ 现代汉语常用字表 .xls ” ii. 以上各项需分别在 Excel 文件(工作簿)中新建一个工作表(即 sheet ) iii. Excel 文件命名格式为: 用字统计 - - 姓名 - 八位日期 - 四位时间 ; 3、 将自己的统计结果跟字频统计工具的结果进行比较,看有无异同; 4、 另找一篇文本自己做练习,推荐处理自己的分词标注结果。 正文文本.txt 语料库在线.rar 操作步骤(语料库加工).doc 操作参考.rar EditPlus汉化版v3.12Build602.rar