如何从一个大文件中分离小文件

如何从一个大文件中分离小文件

点点

2021-05-08 20:27 阅读 368 喜欢 0

背景

 facebook目前存储了2600亿张照片,总大小为20PB,每张照片约为80KB。
 用户每周新增照片数量为              
10亿。(总大小60TB),平均每秒新增3500张照片(3500次写请求),读操作峰值可以达到每秒百 
万次。

考虑到一台标配的服务器的硬盘是10TB,理论上可以存 10TB/80KB=1.3亿张左右的照片。

然而linux服务器的文件索引的设计最多只支持500w左右的文件数,如果超过500w,性能会大幅下降。

在普通的linux文件系统中,读取一个文件包括三次磁盘io:首先读取目录元数据到内存,
其次把文件 中的inode节点装载到内存,最后读取实际的文件内容。由于小文件个数太多,
无法将所有的目录以及文 件的inode信息缓存到内存,                                                                                                                                                                                          
因此磁盘IO次数很难达到每个图片读取只需要一次磁盘IO的理想状态。

因此,facebook的图片存储系统haystack设计采用的思路是: 多个逻辑图片文件共享一个物理文件。

 1个物理文件的大小=32MB。因此linux服务器中的文件个数在                                                            
 10TB/32MB=1024*1024/32=327680..远远小于linux服务器的文件索引的阈值。

  照片文件在物理文件中的存放为依次的顺序存放。每个照片文件的存放规格如下:

 - 1字节的标记位。0代表接下来的照片仍然可用,1代表接下来的照片已经被删除,2代表该物理文件接下来已经没有图片了。

 - 4字节的size。标记照片的大小x。

 - x字节,照片文件本身。

实现

文件已经到手,现在的目标是,根据规则,将文件的所有图片解出。

读取,循环,写入即可。

代码:

 var fs = require('fs');

var d = fs.readFileSync('rf.data');
var b = new Buffer(d);
var c = 0;
for(var i=0;i<b.length;){
var start = i;
var flag = b.slice(start,start+1);//获得标志位
flag = getR(flag);
if(flag == 0){
    var size = getR(b.slice(start+1,start+5));
    //将图片输出
    fs.writeFile(c+'.jpg',b.slice(start+5,start+6+size),function(){
        console.log('图片写入完成')
    });
    i = i + 1 + 4 + size;
    c++;
}else if(flag == 1){
    var size =getR( b.slice(start+1,start+5));
    i = i + 1 + 4 + size;
}else if(flag == 2){
    i = b.length;
}
}

function getR ( buf ){
return parseInt(buf.toString('hex'),16);
}

将BUFFER 转成字符串,buffer内为16进制的,转成string ,则调用Buffer.toString('hex');

获得16进制的字符串,然后见字符串转化为10进制的数字

转载请注明出处: http://sdxlp.cn/article/xiaowenjian.html


如果对你有用的话,请赏给作者一个馒头吧 ...或帮点下页面底部的广告,感谢!!

赞赏支持
提交评论
评论信息(请文明评论)
暂无评论,快来快来写想法...
推荐
腾讯公司的QQ软件是小伙伴们最喜爱的通讯软件之一,可是有些小伙伴还不太熟悉它的一些设置,比如,很多小伙伴们不清楚怎么恢复已删除的QQ好友和QQ群,小编今天给小伙伴们分享解决这个问题的方法。
U盘使用过程中,莫名其妙的问题还是有很多的,其中最奇怪的就是出现U盘拒绝访问的问题,然后就无法打开U盘了,里面的资料也拷贝不出来,不用花钱,一招搞定。一招让u盘重获新生,千万不要拿去换新。u盘无法访问如何解决?
这几天电信发生的大面积网络不能使用的问题,很多小伙伴在正常能上网时上不去,网络对于手机来说是至关重要的,有些小伙伴在使用iPhone手机的时候偶尔遇到无法上网问题,不知道如何解决,接下来小编就给小伙伴们介绍一下具体的操作步骤。
无线网,现在人们使用的越来越多了。很多小伙伴用的苹果设备,苹果设备间的操作是比较方便的,而且iPhone还可以给ipad共享wifi密码的哦,iphone怎么共享wifi给ipad呢?
手机内存越用越少?不敢删除怕误删除重要文件?128G内存可用空间仅有10G?学会这招,轻松给手机腾出至少10G空间。一招致敌,唔好哈。手机微信的内存占比也是很大的,下面跟点点看一下微信dat文件是怎么删除的。在微信的聊天中会占用大量的内存,而最大的占比要数图片和视频,下面点点带小伙伴一起看一下,各个文件的作用,自清理时以免把重要资料删除。
小伙伴们在很多的特殊节日里,手机微信的红包限额将会进行修改,例如一些情人节、七夕等情侣之间过的节日,微信红包限额都会由200改成520,小伙伴们可以直接发出一个520红包,下面就和小编一起来看看吧!
现如今电脑手机太过普遍,很多小伙伴们都是需要隐私的,有可能是重要的要常使用,相信小伙伴们都知道都知道微软系统为了安全考虑会隐藏一些文件和文件夹,以防止误删,有些时候咱们也可以为了隐藏一些私密数据采取隐藏的方式,需要藏哪个就要先学会怎样查看啦!那么Win10正式版怎么显示隐藏文件/文件夹,下面点点就给小伙伴们带来win10显示隐藏文件/文件夹方法。
小伙伴们在玩华为手机过程中,手机拍照、截图、聊天等都会产生数据文件占用手机内存,当手机空间不足时就会影响小伙伴们的使用体验,那怎么清理华为手机内存空间呢?