在处理文本时,通常会涉及下列几个方面 A 清洗文本 B 解析并清洗HTML C 移除标点 D 文本分词 E 删除停止词(stop word) F 提取词干 G 标注词性 H 将文本编码成词袋(Bag of Words) I 按单词的重要性加权 请将上述字母填写到与描述最接近的空中: 1. 对某些重要的单词做特殊的处理() 2. 去除一段话中多余的空格() 3. 将你、我、他这样的词去掉() 4. 从网页文档中提取信息() 5. 统计某些词在文本中出现的频数() 6. 将一段文本中的句号去掉() 7. 提取英文单词中的次干() 8. 提取一段文字中的词() 9. 判断一个词是否名词()