【每周一坑】统计英文小说词频

Thank God It’s Friday!

又到周五啦!眼看就要忙完一周的学习和工作,又可以出去浪咯。

然而,只有我们依旧无趣地在此刻发干货文,提醒着你有没有写新的代码?有没有了解新的语法?硬生生给你五彩斑斓的周末生活蒙上一层阴影。每每想到这,我就觉得,这档子事儿还真是……

干得漂亮!

不多说,先来看这周的题目。上周解答在后半部分。


统计英文词频

编程教室在之前发过一篇 数据分析:当赵雷唱民谣时他唱些什么?,里面对赵雷的几十首歌词做了分词、去冗余、统计的操作,得出了他在歌词中最喜欢用的词汇。

本周我们的题目与这个类似,不过要简单许多。

要求:
  • 统计一部英文小说里单词的出现次数(忽略大小写)

  • 按出现次数显示最高的 100 个单词

  • 【附加题】多统计几个不同作家的作品,挑选一些特征词汇的次数画在图表上,展示不同作家的风格区别。

示例:

Jane Eyre
----------------
1.  the   7406
2.  I     7245
3.  and   6346
4.  to    5155
5.  of    4331
6.  a     4314
...

因为英语天生自带分词,所以要比中文好处理。另外透露下,今天一同发送的 编程课堂 里,有解答这题的关键技巧。

(0)

相关推荐