如何通过程序自动抓取微信公众号文章的内容和视频

如何通过程序自动抓取微信公众号文章的内容和视频

点点

2021-03-30 20:31 阅读 1008 喜欢 0

微信公众号文章里的视频怎么下载

如果只是针对一个文章的话是很简单的,直接通过复制文章地址 ,在谷歌浏览器打开后,然后在视频右下角点击全屏,点击右下角的点点点,点击下载即可。

当然也可以通过F12来查看video标签或查看network数据请求。

这些都是一些基本的操作了,下边主要是通过puppeteer来获取视频并下载。

之前通过puppeteer其实已经做过很多事情了,登录啊 签到啊 等等.因为总体来说没有什么技术含量的,目前主要是做个铺垫,后续研究下如何抓取所有公众号的所有文章。

直接上代码

/**

const puppeteer = require('puppeteer'); const path = require('path'); const fs = require('fs'); const helper = require('think-helper');//创建目录api const axios = require('axios'); const folder = __dirname;

let url = https://mp.weixin.qq.com/s/fwY6FPFCfgdJNTd22qqjKg; // let url = https://mp.weixin.qq.com/s?__biz=MjM5MDAwNTk0MA==&mid=2653094471&idx=1&sn=8f430a2f1764714815ee9f523091b88b;

function wsf(rs,ws){ return new Promise((r,j)=>{ rs.pipe(ws); ws.on('close',e=>{ r(); }) }); }

(async function(){

let browser = await puppeteer.launch({
    headless : true,
    executablePath : 'C:\\Program Files (x86)\\Google\\Chrome\\Application\\chrome.exe'
});

console.log(`开启新页面:[${url}]`);
const page = await browser.newPage();

let asyncArr = [];
page.on('response',async (res)=>{
    try{
        let json = await res.json();//
        if(json && json.url_info){
            console.log(`获取到异步视频数据.`);
            asyncArr = asyncArr.concat(json.url_info);
        }
    }catch(e){}
})
console.log(`等待页面数据请求加载完成。`)
await page.goto(url,{
    waitUntil : 'networkidle2'//请求结束
});

//url
let videoArr = await page.evaluate(()=>{
    return $('video').get().map(t=>{
        return $(t).attr('src');
    })
});

//获取公众号信息
let name = await page.evaluate(()=>{
    return $('.account_nickname_inner').length > 0 ? $('.account_nickname_inner').text() : $('.rich_media_meta_nickname #js_name').text();
});
let title = await page.evaluate(()=>{
    return $('.common_share_title').length > 0 ? $('.common_share_title').text() : $('.rich_media_title').text();
});
name = name.trim();
title = title.trim();
console.log(`获取到公众号信息:[${name}-${title}]`)


//创建目录
let folderPath = path.join(folder,name,title);
helper.mkdir(folderPath);//创建目录
//对视频做处理。
let vr = [];

vr =vr.concat(videoArr.map(t=>{
    let u = new URL(t);
    let fileName = title+path.extname(u.pathname);
    let filePath = path.join(folderPath,fileName);
    return {
        title : fileName,
        filePath : filePath,
        url : t
    }
}));

vr = vr.concat(asyncArr.map(t=>{
    let u = new URL(t.url);
    let fileName = t.video_quality_wording +'-'+ title+path.extname(u.pathname);
    let filePath = path.join(folderPath,fileName);
    return {
        title : fileName,
        filePath : filePath,
        url : t.url
    }
}));

console.log(`开始准备下载视频文件`);
for(let video of vr){
    console.log(`开始下载视频:[${video.title}]`)
    await axios.get(video.url,{
        responseType : 'stream'
    }).then(async rs=>{
        await wsf(rs.data,fs.createWriteStream(video.filePath));
    })
}

//将页面滚动到最底部
await page.evaluate(()=>{
    $('html').get(0).scrollTop = $('html').get(0).scrollHeight
});
console.log('等待资源加载.....')
// await page.evaluate(function(){
//     let timeLimit = 60 * 1000;
//     return new Promise((r,j)=>{
//         let isLoaded = true;
//         let start = +new Date();
//         let t = setInterval(function(){
//             $('img').get().forEach(t=>{
//                 var img = $(t).attr('src');
//                 var pimg = $(t).data('src');
//                 if(img.indexOf(pimg) > -1){
//                     isLoaded  = isLoaded && true;
//                 }else{
//                     isLoaded  = isLoaded && false;
//                 }
//             })
//             if(isLoaded || (+new Date()) - start > timeLimit){
//                 clearInterval(t);
//                 r();
//             }
//         },500);
//     })
// });


//pdf
console.log(`保存文章到PDF`)
await page.pdf({
    path : path.join(folder,name,title,title+'.pdf'),
    format  : 'A4',
    printBackground  : true
});

console.log(`关闭浏览器`);
await browser.close();

process.exit(0);

})(); 相对来说没有什么难度。不过也碰到了一个问题,资源懒加载的问题。

转载请注明出处: http://sdxlp.cn/article/weixingongzhonghao.html


如果对你有用的话,请赏给作者一个馒头吧 ...或帮点下页面底部的广告,感谢!!

赞赏支持
提交评论
评论信息(请文明评论)
暂无评论,快来快来写想法...
推荐
针对二维码进行识别的功能,对图片进行位置纠正、二维码扫描,将数据进行整理。
安卓手机众多的文件夹都代表什么?哪些可以删除,手机拍摄的照片视频在哪个位置?等等这些是否都寻在疑问呢?手机安装太多应用,使用空间逐渐减少,那么那些缓存文件该如何清除,哪些文件可以删除呢?看完接下来的你就懂了!
智能化的时代,当微信的出现,QQ聊天软件现在基本上已经沦为工作与游戏的专用了,用久了之后我们还是建议时不时清理一下没用的聊天记录,毕竟现在这两款软件已经升级为“3A”大作了,电脑里除了视频照片就属QQ/微信占用空间最多。当然我们也可以选择备份聊天记录,这样一来换电脑或者有需要都可以直接完全备份,下面就跟着小编一起来看看具体如何操作吧。
现如今手机成为了每个人的必备之物,随着现在的手机越来越智能,手机的功能越来越多,但是手机的内存越永远也跟不上我们使用的节奏,因为手机的内存越大意味着价格也就越高,就算是再大的内存,也会有使用到不足的时候,而当手机的内存不够用的时候,我们往往就会清理手机里存储的大量照片。
现在最流行的就是在手机上就可以打卡了,早就不用什么打卡机了,还得输入指纹多麻烦,钉钉可以说是现如今大小企业用的最多一款智能移动办公平台了,但是还有不少的人也许还不清楚了解钉钉自动上下班打卡有多方便。
腾讯公司的QQ软件是小伙伴们最喜爱的通讯软件之一,可是有些小伙伴还不太熟悉它的一些设置,比如,很多小伙伴们不清楚怎么恢复已删除的QQ好友和QQ群,小编今天给小伙伴们分享解决这个问题的方法。
iPhone13一经发布就出现了各种小问题,其中最近有很多用户反映,iPhone13Pro系列会造成屏闪,很多用户会觉得长时间使用会造成眼睛的伤害,所以很多用户想要知道这个问题怎么解决,下面就让点点给小伙伴们介绍一下。
最近小编在各大的平台都看到很多的小伙伴们都在找副业,也有小伙伴找小编想给小编的网站啊做运营,也有私信小编的,有时间小编会一一回复,在平台上的大多数都是想收割韭菜的,副业大部分还是需要自己静下心来慢慢做,声音,图片,绘画,面部表情,写作等等都是可以的,主要是找准方向,持续更新,刚开始都是难的后期就会容易,前期也是没有毛毛拿的,需要小伙伴们,有耐心,坚持。