2009年10月26日星期一

Linux工具箱之 使用 md5sum, uniq 查找重复文件

硬盘越来越大,应用越来越多,数据浪费也越来越严重
或者当合并数据的时候,是不是有重复的资源呢?人工查,太累了吧!

总结了几个命令,就可以轻易找到重复的文件,呵呵

例如:
查找当前目录里重复的,大于10K的文件

# find . -size +10k \! -type d -exec md5sum '{}' ';' | sort | uniq -D -w 32

解释一下:
第一个关键点是md5sum, 它可以计算每个文件的唯一校验码,这样就不像iTunes那么傻,根据文件名来识别重复文件。
uniq是个很好的对重复行剔除和显示的工具,也是另外一个关键点

引申一下:
挂载别的计算机共享文件分区,然后再查找相同文件
#mount -t smbfs -o codepage=cp936,iocharset=utf8,username=帐户,password=密码 //192.168.0.2/D$ /mnt/d

利用Cygwin实现在Windows相同功能

没有评论:

发表评论