词频统计分析软件:AntConc

2017年5月4日 | 分类: 【软件】

【介绍】

AntConc: A freeware corpus analysis toolkit for concordancing and text analysis.

最新版本:Windows (3.4.4)

官网:http://www.laurenceanthony.net/software/antconc/
讨论:https://www.zhihu.com/question/31320540

中文手册:http://www.laurenceanthony.net/software/antconc/resources/help_AntConc321_chinese.pdf

下载:https://pan.baidu.com/s/1qYpj5Xq 密码: 66b4

链接里有软件本体和单词原型表;每次用的时候都要重新加载原型表。

软件包含7个工具(tool):

  1. Concordance Tool(索引工具):用于查找某个关键词出现时的具体文本。内容显示在KWIC中,代表KeyWord In Context。表示这个关键词在文本中是如何被使用的。
  2. Concordance Plot Tool(索引节点工具):关键词在全部文本中的出现的分布图。
  3. File View Tool(文件浏览工具):在整个文本中显示关键词。你可以从整个文本的角度,更加全面的了解某词的使用情况。
  4. Clusters/N-Grams(簇):了解关键词其后词的搭配情况。Collocates(搭配):跟clusters是配合用的。它统计了这个词有多少次是跟哪个单词搭配的。
  5. Word List(语汇列表):统计整个文本有多少字数,使用了多少词汇,依照出现次数排序。这样,你就可以知道哪些是高频词。
  6. Keyword List(关键词列表):

【实例】

北极狐<曾经用AntConc统计了《哈利波特》七部的词汇情况。

《哈利波特》一共7部,总字数是112万多。使用单词词汇量是15500左右。
频率最高的前100个词汇,就占字63万。(在这100个词里,除了6个人名:哈利,罗恩,赫敏,邓布利多,海格,斯内普,每个咱们初中都学过。)
频率最高的前1000个词汇,占字96万。
频率最高的前3000个词汇,占字106万。
也就是说,3000个单词,就占全书的94.6%。
在这一共15500左右的词汇中,其中4841个词汇在这7部书里只出现过一次。

怎么样提取《哈利波特》七部的生词呢?

  1. 准备有一份非生词的词汇表
  2. 将《哈利波特》七部的15500左右单词用AntConc导出。
  3. 将两个词汇表放入 Excel。用 vlookup 函数就可以统计出来:=VLOOKUP(E1,A:B,2,FALSE) 。A 列放过已知词汇表;B 列加个标注。E 列放入需要统计的词汇表。F 列输入公式,双击单元格,公式自动下拉。然后,你就看到结果了。E列中凡是你认识的单词,在F列都会出现对应的“我知”标注。#N/A 就是你的生词。

【同类工具】

爱英阅(iYingYue)

官网:http://www.sixue.info/iyingyue/

VocabularyAnalyzer

官网:http://tools.eflclub.me/VocabularyAnalyzer

TreeTagger

官网:http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/
介绍:http://www.cnblogs.com/kaituorensheng/p/3437807.html