如何从一个大文件中分离小文件

如何从一个大文件中分离小文件

点点

2021-05-08 20:27 阅读 319 喜欢 0

背景

 facebook目前存储了2600亿张照片,总大小为20PB,每张照片约为80KB。
 用户每周新增照片数量为              
10亿。(总大小60TB),平均每秒新增3500张照片(3500次写请求),读操作峰值可以达到每秒百 
万次。

考虑到一台标配的服务器的硬盘是10TB,理论上可以存 10TB/80KB=1.3亿张左右的照片。

然而linux服务器的文件索引的设计最多只支持500w左右的文件数,如果超过500w,性能会大幅下降。

在普通的linux文件系统中,读取一个文件包括三次磁盘io:首先读取目录元数据到内存,
其次把文件 中的inode节点装载到内存,最后读取实际的文件内容。由于小文件个数太多,
无法将所有的目录以及文 件的inode信息缓存到内存,                                                                                                                                                                                          
因此磁盘IO次数很难达到每个图片读取只需要一次磁盘IO的理想状态。

因此,facebook的图片存储系统haystack设计采用的思路是: 多个逻辑图片文件共享一个物理文件。

 1个物理文件的大小=32MB。因此linux服务器中的文件个数在                                                            
 10TB/32MB=1024*1024/32=327680..远远小于linux服务器的文件索引的阈值。

  照片文件在物理文件中的存放为依次的顺序存放。每个照片文件的存放规格如下:

 - 1字节的标记位。0代表接下来的照片仍然可用,1代表接下来的照片已经被删除,2代表该物理文件接下来已经没有图片了。

 - 4字节的size。标记照片的大小x。

 - x字节,照片文件本身。

实现

文件已经到手,现在的目标是,根据规则,将文件的所有图片解出。

读取,循环,写入即可。

代码:

 var fs = require('fs');

var d = fs.readFileSync('rf.data');
var b = new Buffer(d);
var c = 0;
for(var i=0;i<b.length;){
var start = i;
var flag = b.slice(start,start+1);//获得标志位
flag = getR(flag);
if(flag == 0){
    var size = getR(b.slice(start+1,start+5));
    //将图片输出
    fs.writeFile(c+'.jpg',b.slice(start+5,start+6+size),function(){
        console.log('图片写入完成')
    });
    i = i + 1 + 4 + size;
    c++;
}else if(flag == 1){
    var size =getR( b.slice(start+1,start+5));
    i = i + 1 + 4 + size;
}else if(flag == 2){
    i = b.length;
}
}

function getR ( buf ){
return parseInt(buf.toString('hex'),16);
}

将BUFFER 转成字符串,buffer内为16进制的,转成string ,则调用Buffer.toString('hex');

获得16进制的字符串,然后见字符串转化为10进制的数字

转载请注明出处: http://sdxlp.cn/article/xiaowenjian.html


如果对你有用的话,请赏给作者一个馒头吧 ...或帮点下页面底部的广告,感谢!!

赞赏支持
提交评论
评论信息(请文明评论)
暂无评论,快来快来写想法...
推荐
微信是全民都在使用的聊天社交平台,在很早之前微信就已经推出了,那几年过去了,怎么找到自己的微信账号注册时间呢,微信注册时间在哪里看,下面就和点点一起来看看吧!
如果只有一两个,我们可以通过高版本的powerpoint软件直接打开ppt然后另存为pptx格式即可,但是如果是几百上千个文件,估计大部分人都会来找工具了。
随着科技的快速发展,人工智能(AI)已经在各个领域大放异彩。其中,AI换脸技术以其独特的魅力引起了广泛的关注。这项技术主要运用深度学习算法,通过分析人脸的几何结构,将生成的模型映射到另一张人脸图像上,实现人脸的巧妙转换。
微信是我们常用的软件,平常生活和工作中都会在聊天中发送图片,可是有时候过几天可能就过期啦,我们无法查看啦。这时候我们还可以把过期的图片恢复过来。其实,也不叫恢复,本身就存在我们自己的手机中,只是加密啦,我们看不到而已,一会点点教小伙伴们先是怎样查看已过期或已清理图片的查看方法,再教小伙伴们永久清除微信内无用图片的方法。可以让手机瞬间腾出几个G的空间。
云端恢复微信聊天记录,现在的手机都是支持云端数据的,对于部分手机来说,内存不足可能就需要来备份,备份后如何后期查看,接下来就让小编带着小伙伴们一起去看看有关微信云端恢复聊天记录的相关消息。
通讯软件有很多,但我们常用的就是微信,微信中的游戏小程序是很多的,可是如果我们不玩的话,就可以选择关闭其入口,今天小编就告诉小伙伴们手机微信怎么关闭发现页中的游戏入口。
在智能手机使用中苹果手机用户量是庞大的,在我们使用苹果手机的时候,很多用户都会使用隔空投送功能,可以轻松的把自己手机的东西投送到另一台设备上,并且没有网络的情况下也可以使用,但是因为很多设备名字都类似,很多小伙伴们找不到另一台手机,想要知道苹果手机隔空投送名字怎么改?
现在的社交软件有很多,但是实用面积广的就哪几个,里边QQ是最早的功能也是比较全的,QQ是现在十分常用的游戏社交软件之一,有些小伙伴不知道怎么找到手机中的QQ文件,接下来小编就给小伙伴们介绍一下具体的操作步骤。