[辅助下载] 人民日报pdf电子版下载器v1.0.0
作者:CC下载站 日期:2024-03-17 10:48:20 浏览:212 分类:上传下载
这个是人民日报的官方电子版地址,可以在网页中查看。本软件只是方便下载到本地查看,只默认下载当日的报纸。
使用python语言编写,pyinstaller打包为exe程序,无任何添加后台功能,提供浏览和其他处理,开源python初学者代码,以供学习测试。
蓝奏云:https://www.lanzoub.com/ir67w1r5rx6f 密码:e5fn
使用方法:打开软件,选择目录,点击下载,你选择的目录就是下载保存的路径。
杀毒检测:因为打包安装超过了腾讯哈勃上传30M的限制,无法检测,使用火绒杀毒未发现风险。
python开源,以供学习。
[Python]
import os import PyPDF2 import random import time from urllib.parse import urljoin import re import requests from lxml import etree import shutil url = "http://paper.people.com.cn/rmrb/paperindex.htm" headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 SE 2.X MetaSr 1.0" } resp_init = requests.get(url, headers=headers) resp_init.encoding = "UTF-8" resp_content = resp_init.text resp_init.close() skip_url = re.compile(r'HTTP-EQUIV="REFRESH".*?URL=(?P<skip_url>.*?)"></head>', re.S) obj_list = skip_url.finditer(resp_content) for element in obj_list: ul = element.group("skip_url") skip_url = urljoin(url, ul) print(skip_url) resp_index = requests.get(skip_url, headers=headers) resp_index.encoding = "UTF-8" tree = etree.HTML(resp_index.text) resp_index.close() pdf_name = tree.xpath("//*[@id='main']/div[2]/div[1]/p[1]/text()")[0].strip().replace("\r\n", "") pdf_name = re.sub(r'\s+', ' ', pdf_name) print(pdf_name) pdf_href = tree.xpath("//*[@id='main']/div[1]/div[2]/p[2]/a/@href")[0] download_pdf_href = urljoin(skip_url, pdf_href) print(download_pdf_href) hrefs = tree.xpath("//*[@id='main']/div[2]/div[2]/div/div/a/@href") def save_pdf(download_path, pdf_href, pdf_detail_name): resp_download_pdf = requests.get(pdf_href, headers=headers) resp_download_pdf.close() # 创建文件夹,不存在就创建 path = f"{download_path}/temp_file" if not os.path.exists(path): os.mkdir(rf"{download_path}/temp_file") with open(f"{download_path}/temp_file/{pdf_detail_name}", mode="wb") as f: f.write(resp_download_pdf.content) print(f"{pdf_detail_name} 下载完成") def init_download(download_path): for href in hrefs: detail_page = urljoin(skip_url, href) resp_detail = requests.get(detail_page, headers=headers) resp_detail.encoding = "UTF-8" tree = etree.HTML(resp_detail.text) resp_detail.close() pdf_href = tree.xpath("//*[@id='main']/div[1]/div[2]/p[2]/a/@href")[0] download_pdf_href = urljoin(skip_url, pdf_href) pdf_detail_name = pdf_href.split("/")[-1] num = random.randint(1, 5) print(f"{detail_page}, {pdf_detail_name}, 随机暂停时间:{num}秒") save_pdf(download_path, download_pdf_href, pdf_detail_name) time.sleep(num) def merge_pdfs(file_list, output): pdf_merger = PyPDF2.PdfMerger() for file in file_list: with open(file, 'rb') as f: pdf_merger.append(f) with open(output, 'wb') as f: pdf_merger.write(f) if __name__ == '__main__': dir_path = "C:/Users/it/Desktop/人民日报" init_download(dir_path) # 获取文件夹下pdf文件 pdf_lst = [f for f in os.listdir(f"{dir_path}/temp_file") if f.endswith('.pdf')] # 合成绝对路径 file_list = [os.path.join(f"{dir_path}/temp_file", filename) for filename in pdf_lst] print(file_list) output = f'{dir_path}/{pdf_name}.pdf' merge_pdfs(file_list, output) if os.path.exists(f"{dir_path}/temp_file"): shutil.rmtree(f"{dir_path}/temp_file") print(f"下载已完成:{output}")
猜你还喜欢
- 03-07 [德云社][郭德纲相声专场][新加坡站][WEB-MP4/2.74G][1080P]
- 02-09 [相声]《郭德纲剧场压轴大作实录》
- 02-19 [脱口秀] 郭论-郭德纲品俗文化史【更新至157集】
- 05-15 [相声小品] 郭德纲相声专辑240+个高音质音频资源度盘,耳朵有福了
- 06-01 [相声] 郭德纲于谦2018美国纽约站相声专场,确实不一样~
- 07-08 [有声小说] [合集][MP3]郭德纲单口相声合集 3.5G
- 08-04 [相声] 《郭德纲大话刘罗锅全集》100集
- 12-09 [相声评书] 分享喜马拉雅郭德纲相声评书《郭论》三季和《谦道》两季
- 09-02 [相声] 德云社郭德纲相声合集(2014—2017 年)
取消回复欢迎 你 发表评论:
- 精品推荐!
-
- 最新文章
- 热门文章
- 热评文章
[书籍] 【帛书版】合集
[老照片] 一万张珍贵历史老照片【jpg 40.4GB】
[素材] 2024新年春节烟花素材合集【PSD格式+PNG格式】
[美剧] 《生活大爆炸》S01-S12季合集 【1080P 蓝光原盘REMUX】 DTS-HD.MA.5.1 【外挂简英双语字幕】 742.8G
[电影] 茶馆(1982)蓝光原盘REMUX 内封简繁英.简中简繁四字幕【33.9G】本片根据老舍同名原著改编
[电视剧] 永夜星河(2024)【4K 2160P 杜比音效】国语中字【全32集完结】爱情,古装 又名 :黑莲花攻略手册
[影视合集] 《霍比特人》三部曲加长版合集 【4K 蓝光 HDR】 TrueHD.7.1 国语次世代+导评 【国配简繁英特效+导评中字五字幕】134G
[课程] 2024邓诚高三数学视频课【MP4 12.2GB】
[电视剧] 宿敌(2024)【完结】【4K / 臻彩视听 / 杜比音效】【廖凡/朱珠】【17.8G】
[影视合集] 【鹿鼎记 7个版本合集】【1984-2020】【4K、1080P、720P】【中文字幕】【278.5G】
[书籍] 彭子益医书合集 [PDF/DOC]
[动画] 2002《火影忍者》720集全【4K典藏版】+11部剧场版+OVA+漫画 内嵌简日字幕
[剧集] 《斯巴达克斯》1-4季合集 无删减版 1080P 内嵌简英特效字幕
[电影] 《变形金刚系列》七部合集 [4K HDR 蓝光] 国英双语音轨 [内封精品特效字幕]【典藏版】235G
[CG剧情] 《黑神话:悟空》158分钟CG完整剧情合集 4K120帧最高画质
[动画] 收藏版:1996-2024年名侦探柯南全系列1080P,含国配、日配双语版+26部剧场作品
[游戏] 黑神话悟空离线完整版+修改器
[电影] 《神奇动物在哪里三部合集》 4K REMUX原盘 [杜比视界] [国英双语音轨] 特效字幕 [171.1G]
[动画] 西游记 (1999) 动画版 4K 全52集 高清修复版 童年回忆
[电影] 我的阿勒泰 (2024) 4K内封简繁 全8集 9.57G
[电影] 《黄飞鸿》全系列合集
[Android] 开罗游戏 ▎像素风格的模拟经营的游戏厂商安卓游戏大合集
[游戏合集] 要战便战 v0.9.107 免安装绿色中文版
[电影] 【珍藏版】20世纪电影合集从1922年到1990年代,看看爷爷辈的电影是什么样合集约212G
[书籍] 彭子益医书合集 [PDF/DOC]
[系统]【黑果小兵】macOS Big Sur 11.0.1 20B50 正式版 with Clover 5126 黑苹果系统镜像下载
[美图] 【经典收藏美图集合】1500多张韩国美女高清图片让你的收藏夹更加丰富多彩
[瓜] 青岛【路虎女】插队、逆行、追尾、打人未删减【完整版视频】
[电视剧] 灵魂摆渡(1-3季合集)【未删减】【4K.无水印】【剧情/恐怖/惊悚】【豆瓣8.7】
[书籍资料] 《玉房秘诀》《玉房秘典》《古代房中术》
- 最新评论
-
电影很不错谢谢分享贪睡的猫 评论于:11-18 一部不错的经典科幻kelvin 评论于:11-13 找了好久的资源,终于在这里找到了。感谢本站的资源和分享。谢谢285552528 评论于:11-09 找了好久的资源bjzchzch12 评论于:11-07 谢谢分享感谢ppy2016 评论于:11-05 谢谢分享感谢ppy2016 评论于:11-05 有靳东!嘻嘻奥古斯都.凯撒 评论于:10-28 流星花园是F4处女作也是4人集体搭配的唯一一部!奥古斯都.凯撒 评论于:10-28 找了好久的资源,终于在这里找到了。感谢本站的资源和分享。谢谢AAAAA 评论于:10-26 找了好久的资源,终于在这里找到了。感谢本站的资源和分享。谢谢password63 评论于:10-26
- 热门tag