【每周一坑】统计英文小说词频
Thank God It’s Friday!
又到周五啦!眼看就要忙完一周的学习和工作,又可以出去浪咯。
然而,只有我们依旧无趣地在此刻发干货文,提醒着你有没有写新的代码?有没有了解新的语法?硬生生给你五彩斑斓的周末生活蒙上一层阴影。每每想到这,我就觉得,这档子事儿还真是……

干得漂亮!
不多说,先来看这周的题目。上周解答在后半部分。
统计英文词频
编程教室在之前发过一篇 数据分析:当赵雷唱民谣时他唱些什么?,里面对赵雷的几十首歌词做了分词、去冗余、统计的操作,得出了他在歌词中最喜欢用的词汇。

本周我们的题目与这个类似,不过要简单许多。
要求:
统计一部英文小说里单词的出现次数(忽略大小写)
按出现次数显示最高的 100 个单词
【附加题】多统计几个不同作家的作品,挑选一些特征词汇的次数画在图表上,展示不同作家的风格区别。
示例:
Jane Eyre
----------------
1. the 7406
2. I 7245
3. and 6346
4. to 5155
5. of 4331
6. a 4314
...
因为英语天生自带分词,所以要比中文好处理。另外透露下,今天一同发送的 编程课堂 里,有解答这题的关键技巧。
赞 (0)
