如何从一个大文件中分离小文件

如何从一个大文件中分离小文件

点点

2021-05-08 20:27 阅读 370 喜欢 0

背景

 facebook目前存储了2600亿张照片,总大小为20PB,每张照片约为80KB。
 用户每周新增照片数量为              
10亿。(总大小60TB),平均每秒新增3500张照片(3500次写请求),读操作峰值可以达到每秒百 
万次。

考虑到一台标配的服务器的硬盘是10TB,理论上可以存 10TB/80KB=1.3亿张左右的照片。

然而linux服务器的文件索引的设计最多只支持500w左右的文件数,如果超过500w,性能会大幅下降。

在普通的linux文件系统中,读取一个文件包括三次磁盘io:首先读取目录元数据到内存,
其次把文件 中的inode节点装载到内存,最后读取实际的文件内容。由于小文件个数太多,
无法将所有的目录以及文 件的inode信息缓存到内存,                                                                                                                                                                                          
因此磁盘IO次数很难达到每个图片读取只需要一次磁盘IO的理想状态。

因此,facebook的图片存储系统haystack设计采用的思路是: 多个逻辑图片文件共享一个物理文件。

 1个物理文件的大小=32MB。因此linux服务器中的文件个数在                                                            
 10TB/32MB=1024*1024/32=327680..远远小于linux服务器的文件索引的阈值。

  照片文件在物理文件中的存放为依次的顺序存放。每个照片文件的存放规格如下:

 - 1字节的标记位。0代表接下来的照片仍然可用,1代表接下来的照片已经被删除,2代表该物理文件接下来已经没有图片了。

 - 4字节的size。标记照片的大小x。

 - x字节,照片文件本身。

实现

文件已经到手,现在的目标是,根据规则,将文件的所有图片解出。

读取,循环,写入即可。

代码:

 var fs = require('fs');

var d = fs.readFileSync('rf.data');
var b = new Buffer(d);
var c = 0;
for(var i=0;i<b.length;){
var start = i;
var flag = b.slice(start,start+1);//获得标志位
flag = getR(flag);
if(flag == 0){
    var size = getR(b.slice(start+1,start+5));
    //将图片输出
    fs.writeFile(c+'.jpg',b.slice(start+5,start+6+size),function(){
        console.log('图片写入完成')
    });
    i = i + 1 + 4 + size;
    c++;
}else if(flag == 1){
    var size =getR( b.slice(start+1,start+5));
    i = i + 1 + 4 + size;
}else if(flag == 2){
    i = b.length;
}
}

function getR ( buf ){
return parseInt(buf.toString('hex'),16);
}

将BUFFER 转成字符串,buffer内为16进制的,转成string ,则调用Buffer.toString('hex');

获得16进制的字符串,然后见字符串转化为10进制的数字

转载请注明出处: http://sdxlp.cn/article/xiaowenjian.html


如果对你有用的话,请赏给作者一个馒头吧 ...或帮点下页面底部的广告,感谢!!

赞赏支持
提交评论
评论信息(请文明评论)
暂无评论,快来快来写想法...
推荐
安卓手机众多的文件夹都代表什么?哪些可以删除,手机拍摄的照片视频在哪个位置?等等这些是否都寻在疑问呢?手机安装太多应用,使用空间逐渐减少,那么那些缓存文件该如何清除,哪些文件可以删除呢?看完接下来的你就懂了!
网络现在覆盖率越来越大了,在电脑上连接公司内网,可以让我们的网络环境变成专用网络,更便捷、高效的办公,那你知道怎么在自己的电脑上连接公司内网吗?
我们在使用Excel办公的时候,有时候需要利用函数对单个区域排名,那么具体该如何操作呢?下面小编就为小伙伴们详细介绍一下,来看看吧!
网络是有记忆的,有过联系就会留下痕迹,QQ十年前的好友删除了该怎样找回?嘿嘿,关注点点,让小伙伴们回到青春时的回忆!直接给小伙伴们上干货啦!跟着点点来!
c盘哪些文件可以删除?C盘里面的哪些文件可以删除?当我们在使用电脑一段时间之后,可以看到自己的C盘一下就多了很多内存,非常影响系统运行,那c盘哪些文件可以删除,怎么把C盘不需要的文件删除,下面就和小编一起来看看吧!
智能手机是我们生活中的标配,有很多的手机功能不太好用,该如何处理哪?例如智能手机红米手机也是搭载了最新的miui13系统,所以也是具备miui13系统中的最新的纯净模式的,所以很多用户在打开之后就会造成无法下载第三方软件,很多小伙伴们觉得不太好用,所以很多小伙伴们想要知道红米手机纯净模式怎么关闭?
现在很多小伙伴使用手机都会安装微信,可以用来社交聊天,还可以转账提现,最近有小伙伴在询问财产提现很久没有到账,怎么才能解决,那么点点在这里分享一下微信提现未到账解决方法,有需要的小伙伴,可以看看哦!小知识解决大问题!
通过pm2来实现nodejs应用的集群,不过之前没做session共享,导致.. 登录不上啊 啊啊啊,无奈,又重新对redis进行了集成。 以下记录下自己集成redis 以及实现pm2 的集群管理的过程。 自己项目的整体结构是这样组成的:nodejs + express + mysql + pm2