读懂英文文章所需的单词量
简介
备考托福,GRE 需要背上万单词,除去考试通关的因素,就想看看是不是真有必要花时间去背那么多单词。
实验使用从初中到 GRE 不同等级考试要求的单词表,代入 Brown 文本数据集,评估背会各等级单词后,能看懂多大比例的文本。比如:高中毕业要求 4000 左右单词量,背会后对于取自不同领域的各种文本,能看懂句中单词的比例是多少。
从实验结果可以看到,即使背会了 GRE 要求的 15000+ 以上,还会有很多词不认识,如一些专业领域的词汇。当然,如果就认识 200 个词,那也确实太少了。因此,本文将讨论对于不同学习阶段,背多少词,背哪些词性价比最高。
数据和方法
资源数据集
使用初中,高中,大学四六级,专八,雅思,托福,GRE 的单词表。另外,加入了初一上半学期(这个学期基本都在复习小学内容,可近似地视为小学毕业水平),以及 Brown 数据集中的高频单词。
评价数据集
使用自然语言处理 NLTK 自带的 Brown 语料库,它创建于 1961 年,包含来自五百多个不同来源的文本,包含新闻,社论等类型。是一个覆盖类型相对全面的语料库,其中包含 5 万多句子,116 万多单词。
方法
- 语料库以句为单位,评价认识单词的比例。
- 将句子切分成单词,并做简单标准化处理,去掉标点符号,将 'ing','ed','er','es','s','d','ment','ly' 结尾的单词转换成其原型。
- 针对每一个句子评价每个等级应该认识的词占所有词的比例。
结果
对比不同频率的单词
图中横轴是句子,纵轴是认识的词所占句中单词的比例,比如图中蓝色线在 30000 的位置表示:如果只认识出现高频最高的 500 个单词,对于难度适中的句子 (30000/50000),能看懂其中 70% 的单词。
对比不同考试等级
从图中黄线可以看到,如果是初一第一学期水平,几乎没什么句子是完全认识的(左上角),背完初中阶段所有单词(蓝色线),句中词全认识的也不多。
讨论
学会多少词性价比最高
- 个人觉得图 -1 的绿线 (top2000) 到红线 (top3000) 对于多数学生是性价比最高的选择,后面每多学 1000 个单词,进步空间都越来越有限,这也符合二八法则(即:最重要的只占少数)。
- 从图 -2 中可以看出,top2000(浅蓝) 的水平和大学英语四级差不多,但是可以少背多半单词。
- 背高频单词可能是更高效的选择。
按书学习有什么问题
教科书,尤其是低年级的教科书往往是成体系的学习,比如某节课学衣服,就把上衣,裤子,鞋,袜子,短裤都给学了,但是在文本阅读中,“袜子”出现的概率很低。另外,如果某课出现了一个很少用的词,但是为了保持课程的完整性,也加入了单词表。比如初中第一学期单词表 400 多个,与高频 2000 词重合的只有 200 出头。所以此时,娃的常用单词量只有 200 多。
局限性
- Brown 语料库虽然包含各种类型的文本,但并不能代表所有数据,结果可能有失公平,但它是目前我能找到的覆盖最广的数据集,且能展示相对关系。
- 高频词取自 Brown,又参与到评测中来,可能有失公平,但是也在路透社数据集上做过评测,结果差不多。
- 您可能觉得更高等级考试的词汇也非常值得学习,其中包含的关键词汇,虽然只占句子内容的 1/10,如果这个词不认识,句子意思就理解不了;另外高级别考试中虽然单词多,但很多是简单单词的组合,实际学习起来工作量并没那么大,还能学习一些规律;开卷有益…… 以上观点我都同意,暂不在这里讨论。
其它启发
- 如果把词根词缀考虑进去效果可能更好。
- 最好把词放在句子中背,不能只靠默写。比如学习字典中的例句(例句往往不包含其它难词,简短,意思明确且有翻译)。
- 每天背完要复习前 N 天的,每周复习,否则忘得很快。
- 无论大人小孩,名词动词形容词相对容易记忆,连词抽象词记了就忘,小技巧是:如果一个词有多个意思,第一次只记最容易记住或者最基础的意思;抽象词可以和其它词一起记忆,记住短例子(比如 since 记不住,记例句:I have't eaten since breakfast),或者已知的近义词(比如 however 记不住,就记它比 but 意思弱一点)。
结论
以娃为例:学习最高频的前 2000 个单词是个学习的捷径,从中再去掉本来就会的单词,每天背 10 个,200 天背完,除去周末,加上复习时间,一年怎么也背完了;这时候就能看一些简单的英文书;最后就可能进入一个自我进化的良性循环。
个人看法,仅供参考,至于实际效果如何,请关注我家大宝一年后的英语水平。以此送给刚上初中的宝宝和宝爸宝妈们~