AntConc 是由在日本早稻田大学执教的英国学者 Laurence Anthony 研发的一款语料库检索软件。它可以应用于中小规模的词频统计、语料检索,信息筛选等。软件的下载地址是:http://www.laurenceanthony.net

2.BNC 词表

BNC 是英国国家语料库 (The British National Corpus) 的简称,该语料库是目前网络上可直接使用的最大语料库之一,也是目前世界上最具代表性的当代英语语料库之一。英国国家语料库针对英语词频统计给出了一个BNC 15000 词表。这份词表覆盖了英国本土出版物语料中最常使用的15000个单词。这份 BNC 词表的下载地址是:




本次统计我从BNC词表中按照词频分别选取了前6000,前8000,前10000,前12000以及前15000个单词,利用 AntConc 软件的词表筛选功能,统计出366665词的《经济学人》文本中,有多少词落在各个词表的范围。得到的统计结果如下:

从统计图中可以看出,《经济学人》的36万多词文本中,只有 92.57% 的单词落在BNC词表中前8000词区间中。也就是说,假如你的词汇量是8000,那么你只能读懂《经济学人》文本的92.57%,按照上面的词汇覆盖率标准,这样的覆盖率并不能保证顺利理解文本。如果你的词汇量达到了10000,那么你大概可以读懂 95.05%的《经济学人》,基本可以理解文本内容。如果词汇量达到了15000,你的词汇覆盖率会上升到97.92%,基本达到了充分理解的程度。




下面是马丁·路德·金的著名演讲 I have a dream 演讲稿片段。由于当时面对的听众是广大受教育程度不高的黑人底层民众,演讲稿会相对比较“平易近人”,以确保每个人都能够听懂。但这样的演讲稿仍然出现了不少“超纲词”。

Five score years ago, a great American, in whose symbolic shadow we stand today, signed the Emancipation Proclamation. This momentous decreecame as a great beaconlight of hope to millions of Negro slaves who had been seared in the flames of witheringinjustice. It came as a joyousdaybreak to end the long night of their captivity.

But one hundred years later, the Negro still is not free. One hundred years later, the life of the Negro is still sadly crippledby the manacles of segregationand the chains of discrimination. One hundred years later, the Negro lives on a lonely island of poverty in the midst of a vast ocean of material prosperity. One hundred years later, the Negro is still languishedin the corners of American society and finds himself an exile in his own land. And so we've come here today to dramatize a shameful condition.

下面是词汇量测试网站 http://www.testyourvocab.com 统计出的英语母语人士词汇量分布表:







[1] Laufer, B. How much lexis is necessary for reading comprehension? [J]. In P. Arnaud and H. Bejoint (ed.). 1992, 13: 126-132.

[2] Read, J. Assessing Vocabulary [M]. Cambridge: Cambridge University Press

