Linux终端的乐趣之把玩字词计数

作者： Avishek Kumar 译者： LCTT Mike Tang

| 2014-10-26 11:35 评论: 4 收藏: 2 分享: 5

Linux 命令行有很多的乐趣，我们可以很容易并且完善地执行很多繁琐的任务。比如，我们计算一个文本文件中字和字符的出现频率，这就是我们打算在这篇文章中讲到的。

立刻来到我们脑海的命令，计算字和字符在一个文本文件中出现频率的 Linux 命令是 wc 命令。

在使用的脚本来分析文本文件之前，我们必须有一个文本文件。为了保持一致性，我们将创建一个文本文件，man命令的输出如下所述。

$ man man > man.txt

以上命令是将man命令的使用方式导入到man.txt文件里。

我们希望能得到最平常的单词，对之前我们新建的文件执行如下脚本。

$ cat man.txt | tr ' '  '\012' | tr '[:upper:]' '[:lower:]' | tr -d '[:punct:]' | grep -v '[^a-z]' | sort | uniq -c | sort -rn | head

Sample Output

7557 
262 the 
163 to 
112 is 
112 a 
78 of 
78 manual 
76 and 
64 if 
63 be

上面的脚本，输出了最常使用的十个单词。

如何看单个的字母呢？那就用如下的命令。

$ echo 'tecmint team' | fold -w1

Sample Output

t 
e 
c 
m 
i 
n 
t 
t 
e 
a 
m

注: -w1只是设定了长度

现在我们将从那个文本文件中掰下来的每一个字母，对结果进行排序，得到所需的输出频率的十个最常见的字符。

$ fold -w1 < man.txt | sort | uniq -c | sort -rn | head

Sample Output

如何区分大小写呢？之前我们都是忽略大小写的。所以，用如下命令。

$ fold -w1 < man.txt | sort | tr '[:lower:]' '[:upper:]' | uniq -c | sort -rn | head -20

Sample Output

请检查上面的输出，标点符号居然包括在内。让我们干掉他，用tr 命令。GO:

$ fold -w1 < man.txt | tr '[:lower:]' '[:upper:]' | sort | tr -d '[:punct:]' | uniq -c | sort -rn | head -20

Sample Output

现在，我们有了三个文本，那就让我们用如下命令查看结果吧。

$ cat *.txt | fold -w1 | tr '[:lower:]' '[:upper:]' | sort | tr -d '[:punct:]' | uniq -c | sort -rn | head -8

Sample Output

下一步我们将会生成那些罕见的至少十个字母长的单词。以下是简单的脚本：

$ cat man.txt | tr '' '\012' | tr '[:upper:]' '[:lower:]' | tr -d '[:punct:]' | tr -d '[0-9]' | sort | uniq -c | sort -n |  grep -E '..................' | head

Sample Output

1        ────────────────────────────────────────── 
1        a all 
1        abc             any or all arguments within   are optional 
1               able  see setlocale for precise details 
1        ab              options delimited by  cannot be used together 
1               achieved by using the less environment variable 
1              a child process returned a nonzero exit status 
1               act as if this option was supplied using the name as a filename 
1               activate local mode  format and display  local  manual  files 
1               acute accent

注: 上面的.越来越多，其实，我们可以使用.{10} 得到同样的效果。

这些简单的脚本，让我们知道最频繁出现的单词和英语中的字符。

现在结束了。下次我会在这里讲到另一个有趣的话题，你应该会喜欢读。还有别忘了向我们提供您的宝贵意见。

via: http://www.tecmint.com/play-with-word-and-character-counts-in-linux/

作者：Avishek Kumar 译者：MikeCoder 校对：wxy

本文由 LCTT 原创翻译，Linux中国荣誉推出

最新评论

微博评论 2014-10-26 19:03 13 赞回复: 回复@年年_去旅行:命令越来越长，最终还是写进脚本文件吧。

微博评论 2014-10-26 18:33 9 赞回复: @浩phoebus @请叫我刚锅 @见字胡 @彭老贤 m

微博评论 2014-10-26 12:33 15 赞回复: fun

微博评论 2014-10-26 12:33 9 赞回复: 这个挺好

译自：tecmint 作者： Avishek Kumar
原创：LCTT https://linux.cn/article-4088-1.html 译者： Mike Tang

本文由 LCTT 原创翻译，Linux 中国首发。也想加入译者行列，为开源做一些自己的贡献么？欢迎加入 LCTT！
翻译工作和译文发表仅用于学习和交流目的，翻译工作遵照 CC-BY-SA 协议规定，如果我们的工作有侵犯到您的权益，请及时联系我们。
欢迎遵照 CC-BY-SA 协议规定转载，敬请在正文中标注并保留原文/译文链接和作者/译者等信息。
文章仅代表作者的知识和看法，如有不同观点，请楼下排队吐槽 :D

上一篇：Linux有问必答：如何检测并修复bash中的破壳漏洞

LCTT 译者

Mike Tang 🌟🌟🌟

共计翻译： 23.0 篇 | 共计贡献： 847 天

贡献时间：2014-04-25 -> 2016-08-19

访问我的 LCTT 主页 | 在 GitHub 上关注我

@-webkit-keyframes spin{100%{-webkit-transform:rotate(360deg);}}@keyframes spin{100%{transform:rotate(360deg);}}

Linux终端的乐趣之把玩字词计数

Sample Output

Sample Output

Sample Output

Sample Output

Sample Output

Sample Output

Sample Output

发表评论

最新评论

相关阅读