ROST中文词频统计工具 特点
1、使用简单,无需安装;2、批量执行,速度快;
3、结果生成网页,查看方便。
ROST中文词频统计工具功能
1.统计一个文档中出现过的所有汉字及非汉字频度;2.统计一个文档中和另外一个字表对比之后超纲的词及词频数,对字频统计结果进行词频升序、词频降序、字母升序、字母降序排列;
3.字典工具有超级功能:提取一定长度的单词,删除第一个字符串中某个字符串的单词,删除最后一个字符串中某个字符串的单词,提取第一个字符串中某个字符串的单词,字符串中每个单词的unicode值或ASC值,提取重复结束的字符串,对短语进行排序,删除重复的字符串,删除某个字符串的单词,将文本拆分成一个单词一行,提取包含某个单词串的单词,附加ASC码表,删除连续空格,任意提取单空格短语或多空格短语,删除单词中包含的某些字符,剔除包含某些汉字或其他字符的行,提取某个字符串之前的所有单词。对于普通文件,可以拆分操作。这个字典工具的处理速度目前还没有优化,所以计划在下一个版本中单独拿出字典工具进行优化,以便处理非常大的文档。
4.这个软件的一个主要特点是批处理。用户可以批量选择一系列文本文件,批量生成Fre频率文件。频率文件是一种用户定义的数据文件,包含单词或单词和频率,是ROST的专有格式。通过Fre的定义,可以有效提高处理速度。频率文件fre可以通过计算集合和交集来处理。设置获取所有频率文件的总和。交集产生包含在所有频率文件中的单词。这在实践中有什么作用?通过交集提取出一系列文档,就可以得到某类文档(如旅游、计算机)中的共同特征词。但是,集合可以快速处理大型文档。鉴于这个软件的高速,也可以进行1000亿字的统计。
5.自定义过滤词表,可以使用菜单右键查看过滤词表,添加自己需要的过滤词。目前使用的过滤词表为空,用户可以自行增加。使用菜单保存词表之后将该文本文件覆盖软件目录下的dict目录下的compare.txt即可,使用过滤词可以非常方便的获得超纲的字有哪些。
6.从剪贴板统计文字。注意如果先点击了剪贴板统计文字,则非中文统计显示的是剪贴板里面的非中文,而不是文件里面的非中文
以上便是kk下载小编给大家介绍的ROST中文词频统计工具!