Linux 知识深似海

| 2013-07-28 15:01 收藏: 1 分享: 2

　　如果你有一个4.2GB的CSV文件，里面有超过1200万条记录，每条记录都有50列。现在你要做的是把其中某一列的值全加起来。

　　你怎么办？

　　这是我最近看到的一篇文章的开头部分。文章介绍的是如何使用unix命令来分析大体积文件的文章。像我这样一个基本上都在Windows平台上开发的程序员，对他提出的这样一个问题，首先出现在脑子里的就是内存溢出、CPU达到100%、跑一个晚上。而对于一个Linux/unix高手来说，这真是小菜一碟，正如文章中介绍的方法，一行命令就完成了这个任务。

　　(假设文件名叫做data.csv，行数据用竖线分割，我们需要总计其中的第四列。)

　　cat data.csv | awk -F "|" '{ sum += $4 } END { printf "%.2f\n", sum }'

　　简洁干净，而且里面的{ sum += $4 }很有闭包的味道。让我对Linux的向往又加深了一层。

　　我写这篇博客的目的并不是抒发对Linux的感情的，而是重点讲一下发生在这篇文章评论里的事情。这篇文章吸引了不少Linux爱好者的评论，而且都是Liunx高手，仅仅是第一条评论，看了后就让我惊讶的合不上嘴。

　　这位叫做California Lotto的网名的评论是：

　　如果你认为自己是一个Linux命令行高手，那恭喜你赢得今天的“最没用的Cat用法”大奖。你应该这样写这个命令：

　　awk -F "|" '{ sum += $4 } END { printf "%.2f\n", sum }' < data.csv

　　的确，cat在这里似乎是没必要的。我首先是佩服，可之后马上感觉这个人可真讨厌，卖弄。虽然我不喜欢他无视作者写这片好博文的辛苦，但作为外行人，他和作者一样都是我高不可及的。

　　可是当我读第二条评论时，事情出现了戏剧性的变化，这第二条评论明显是真对第一条评论的：

　　如果你认为自己是一个Linux命令行高手，那恭喜你赢得今天的“最没用的重定向用法”奖。你应该这样写这个命令：

　　awk -F "|" '{ sum += $4 } END { printf "%.2f\n", sum }' data.csv

　　正所谓强中自有强中手，一山更比一山高。我突然意识到，其实没必要在这里比谁比谁更强，在这个浩瀚的互联网里，永远都会有比你在某方法更出众的人。这里重要的是探讨和参与。通过这种探讨，不仅丰富了你我的知识，而且对问题的解决方案有了更丰富的认识。正像接下来的评论里继续指出，命令行这的重定向符放在什么地方都可以，写成这样也是好用的：

　　

　　，神奇吧！而接下来继续有人指出，作者在实验时写成这样：

　　head -1 data.psv | awk -F’|’ ‘{print NF}’

　　，实验成功后直接把head改成cat是顺理成章的事。

　　不管怎样，这是一篇好文章，这些人都是高手，都是我的老师，不仅教我编程知识，更教我如何做人。

原文：http://www.gregreda.com/2013/07/15/unix-commands-for-data-science/

译文：http://www.aqee.net/useful-unix-commands-for-data-science/

已同步至 linux的微博

Linux 知识深似海

发表评论

最新评论

@-webkit-keyframes spin{100%{-webkit-transform:rotate(360deg);}}@keyframes spin{100%{transform:rotate(360deg);}}

Linux 知识深似海

发表评论

最新评论

相关阅读