【软件】AntConc 词频统计分析软件

2017年5月4日 由 Amon 没有评论 »

【介绍】

AntConc: A freeware corpus analysis toolkit for concordancing and text analysis.

最新版本:Windows (3.4.4)

官网:http://www.laurenceanthony.net/software/antconc/
讨论:https://www.zhihu.com/question/31320540

中文手册:http://www.laurenceanthony.net/software/antconc/resources/help_AntConc321_chinese.pdf

下载:https://pan.baidu.com/s/1qYpj5Xq 密码: 66b4

链接里有软件本体和单词原型表;每次用的时候都要重新加载原型表。

软件包含7个工具(tool):

  1. Concordance Tool(索引工具):用于查找某个关键词出现时的具体文本。内容显示在KWIC中,代表KeyWord In Context。表示这个关键词在文本中是如何被使用的。
  2. Concordance Plot Tool(索引节点工具):关键词在全部文本中的出现的分布图。
  3. File View Tool(文件浏览工具):在整个文本中显示关键词。你可以从整个文本的角度,更加全面的了解某词的使用情况。
  4. Clusters/N-Grams(簇):了解关键词其后词的搭配情况。Collocates(搭配):跟clusters是配合用的。它统计了这个词有多少次是跟哪个单词搭配的。
  5. Word List(语汇列表):统计整个文本有多少字数,使用了多少词汇,依照出现次数排序。这样,你就可以知道哪些是高频词。
  6. Keyword List(关键词列表):

【实例】

北极狐<曾经用AntConc统计了《哈利波特》七部的词汇情况。

《哈利波特》一共7部,总字数是112万多。使用单词词汇量是15500左右。
频率最高的前100个词汇,就占字63万。(在这100个词里,除了6个人名:哈利,罗恩,赫敏,邓布利多,海格,斯内普,每个咱们初中都学过。)
频率最高的前1000个词汇,占字96万。
频率最高的前3000个词汇,占字106万。
也就是说,3000个单词,就占全书的94.6%。
在这一共15500左右的词汇中,其中4841个词汇在这7部书里只出现过一次。

怎么样提取《哈利波特》七部的生词呢?

  1. 准备有一份非生词的词汇表
  2. 将《哈利波特》七部的15500左右单词用AntConc导出。
  3. 将两个词汇表放入 Excel。用 vlookup 函数就可以统计出来:=VLOOKUP(E1,A:B,2,FALSE) 。A 列放过已知词汇表;B 列加个标注。E 列放入需要统计的词汇表。F 列输入公式,双击单元格,公式自动下拉。然后,你就看到结果了。E列中凡是你认识的单词,在F列都会出现对应的“我知”标注。#N/A 就是你的生词。

【同类工具】

爱英阅(iYingYue)

官网:http://www.sixue.info/iyingyue/

VocabularyAnalyzer

官网:http://tools.eflclub.me/VocabularyAnalyzer

TreeTagger

官网:http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/
介绍:http://www.cnblogs.com/kaituorensheng/p/3437807.html

怎样开启Dedecms的小说模块

2017年4月26日 由 Amon 没有评论 »

1. 介绍

演示:http://v57.demo.dedecms.com/book

2. 启用

演示:http://v57.demo.dedecms.com/book

修改权限为777:

/templets/plus

» 阅读更多: 怎样开启Dedecms的小说模块

工具:MySQLConverterTool

2017年4月25日 由 Amon 没有评论 »

官网:https://github.com/philip/MySQLConverterTool

讨论:http://stackoverflow.com/questions/1390607/how-could-i-change-this-mysql-to-mysqli

参考:https://lists.mysql.com/announce/400

The MySQL ext/mysqli Converter Tool is a collection of PHP scripts that help you upgrade PHP applications using the old PHP mysql extensions to using the newer PHP mysqli extension.

Linux From Scratch 中文翻译

2017年4月25日 由 Amon 没有评论 »

LFS 手册(7.7,systemd 版本)

官网:http://lctt.github.io/
介绍:https://linux.cn/article-5797-1.html

Linux From Scratch 6.4 中文手册及 zhdoc-lfs 项目

下载:https://code.google.com/archive/p/zhdoc-lfs/downloads

怎样部署fail2ban

2017年4月21日 由 Amon 没有评论 »

【介绍】

官网:http://www.fail2ban.org/

介绍:fail2ban是一款实用软件,可以监视你的系统日志,利用做filter和actor对匹配条件的错误信息(正则式匹配)执行相应的屏蔽动作。

参考:http://blog.csdn.net/clebeg/article/details/37960425

【安装】

参考:http://baike.baidu.com/item/Fail2ban
参考:http://www.cnblogs.com/canxuexiecheng/articles/3315021.html
参考:https://my.oschina.net/monkeyzhu/blog/418592
参考:https://calvinpeak.herokuapp.com/2014/12/15/install-centos-7-in-linode/

【应用】

参考;https://my.oschina.net/CandyMi/blog/500767
参考:https://my.oschina.net/yiyuanxi/blog/810988

但是对于某个特定的爬虫地址(例如网易、有道)的爬取行为拒绝也很难准确做到,因为你无法准确知道这些特定的爬虫ip地址(例如网易、有道)。

建议不要用封ip条目的方式,iptables列表长度是 65535 时就会封满,服务器也就会死机。