[Python] 利用Scrapy框架爬取LOL皮肤站高清壁纸
作者:CC下载站 日期:2020-03-06 00:00:00 浏览:72 分类:编程开发
成品打包:点击进入
代码:
爬虫文件
#-*-coding:utf-8-*- importscrapy frompractice.itemsimportPracticeItem fromurllibimportparse classLolskinSpider(scrapy.Spider): name='lolskin' allowed_domains=['lolskin.cn'] start_urls=['https://lolskin.cn/champions.html'] #获取所有英雄链接 defparse(self,response): item=PracticeItem() item['urls']=response.xpath('//div[2]/div[1][email protected]').extract() forurlinitem['urls']: self.csurl='https://lolskin.cn' yieldscrapy.Request(url=parse.urljoin(self.csurl,url),dont_filter=True,callback=self.bizhi) returnitem #获取所有英雄皮肤链接 defbizhi(self,response): skins=(response.xpath('[email protected]').extract()) forskininskins: yieldscrapy.Request(url=parse.urljoin(self.csurl,skin),dont_filter=True,callback=self.get_bzurl) #采集每个皮肤的壁纸,获取壁纸链接 defget_bzurl(self,response): item=PracticeItem() image_urls=response.xpath('//body/div[1][email protected]').extract() image_name=response.xpath('//h1/text()').extract() yield{ 'image_urls':image_urls, 'image_name':image_name } returnitem
items.py
#-*-coding:utf-8-*- #Defineherethemodelsforyourscrapeditems # #Seedocumentationin: #https://docs.scrapy.org/en/latest/topics/items.html importscrapy classPracticeItem(scrapy.Item): #definethefieldsforyouritemherelike: #name=scrapy.Field() #titles=scrapy.Field() #yxpngs=scrapy.Field() urls=scrapy.Field() skin_name=scrapy.Field()#皮肤名 image_urls=scrapy.Field()#皮肤壁纸url images=scrapy.Field()
pipelines.py
#-*-coding:utf-8-*- #Defineyouritempipelineshere # #Don'tforgettoaddyourpipelinetotheITEM_PIPELINESsetting #See:https://docs.scrapy.org/en/latest/topics/item-pipeline.html importos importre fromscrapy.pipelines.imagesimportImagesPipeline importscrapy #classPracticePipeline(object): #def__init__(self): #self.file=open('text.csv','a+') # #defprocess_item(self,item,spider): ##os.chdir('lolskin') ##fortitleinitem['titles']: ##os.makedirs(title) #skin_name=item['skin_name'] #skin_jpg=item['skin_jpg'] #foriinrange(len(skin_name)): #self.file.write(f'{skin_name[i]},{skin_jpg} ') #self.file.flush() #returnitem # #defdown_bizhi(self,item,spider): #self.file.close() classLoLPipeline(ImagesPipeline): defget_media_requests(self,item,info): forimage_urlinitem['image_urls']: yieldscrapy.Request(image_url,meta={'image_name':item['image_name']}) #修改下载之后的路径以及文件名 deffile_path(self,request,response=None,info=None): image_name=re.findall('/skin/(.*?)/',request.url)[0]+"/"+request.meta[f'image_name'][0]+'.jpg' returnimage_name
settings.py
#-*-coding:utf-8-*- #Scrapysettingsforpracticeproject # #Forsimplicity,thisfilecontainsonlysettingsconsideredimportantor #commonlyused.Youcanfindmoresettingsconsultingthedocumentation: # #https://docs.scrapy.org/en/latest/topics/settings.html #https://docs.scrapy.org/en/latest/topics/downloader-middleware.html #https://docs.scrapy.org/en/latest/topics/spider-middleware.html importos BOT_NAME='practice' SPIDER_MODULES=['practice.spiders'] NEWSPIDER_MODULE='practice.spiders' #Crawlresponsiblybyidentifyingyourself(andyourwebsite)ontheuser-agent #USER_AGENT='practice(+http://www.yourdomain.com)' #Obeyrobots.txtrules ROBOTSTXT_OBEY=False #ConfiguremaximumconcurrentrequestsperformedbyScrapy(default:16) #CONCURRENT_REQUESTS=32 #Configureadelayforrequestsforthesamewebsite(default:0) #Seehttps://docs.scrapy.org/en/latest/topics/settings.html#download-delay #Seealsoautothrottlesettingsanddocs #设置延时 DOWNLOAD_DELAY=1 #Thedownloaddelaysettingwillhonoronlyoneof: #CONCURRENT_REQUESTS_PER_DOMAIN=16 #CONCURRENT_REQUESTS_PER_IP=16 #Disablecookies(enabledbydefault) #COOKIES_ENABLED=False #DisableTelnetConsole(enabledbydefault) #TELNETCONSOLE_ENABLED=False #Overridethedefaultrequestheaders: #DEFAULT_REQUEST_HEADERS={ #'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', #'Accept-Language':'en', #} #Enableordisablespidermiddlewares #Seehttps://docs.scrapy.org/en/latest/topics/spider-middleware.html #SPIDER_MIDDLEWARES={ #'practice.middlewares.PracticeSpiderMiddleware':543, #} #Enableordisabledownloadermiddlewares #Seehttps://docs.scrapy.org/en/latest/topics/downloader-middleware.html #DOWNLOADER_MIDDLEWARES={ #'practice.middlewares.PracticeDownloaderMiddleware':543, #} #Enableordisableextensions #Seehttps://docs.scrapy.org/en/latest/topics/extensions.html #EXTENSIONS={ #'scrapy.extensions.telnet.TelnetConsole':None, #} #Configureitempipelines #Seehttps://docs.scrapy.org/en/latest/topics/item-pipeline.html ITEM_PIPELINES={ #'practice.pipelines.PracticePipeline':300, #'scrapy.pipelines.images.ImagesPipeline':1, 'practice.pipelines.LoLPipeline':1 } #设置采集文件夹路径 IMAGES_STORE='E:PythonscrapypracticepracticeLOLskin' #EnableandconfiguretheAutoThrottleextension(disabledbydefault) #Seehttps://docs.scrapy.org/en/latest/topics/autothrottle.html #AUTOTHROTTLE_ENABLED=True #Theinitialdownloaddelay #AUTOTHROTTLE_START_DELAY=5 #Themaximumdownloaddelaytobesetincaseofhighlatencies #AUTOTHROTTLE_MAX_DELAY=60 #TheaveragenumberofrequestsScrapyshouldbesendinginparallelto #eachremoteserver #AUTOTHROTTLE_TARGET_CONCURRENCY=1.0 #Enableshowingthrottlingstatsforeveryresponsereceived: #AUTOTHROTTLE_DEBUG=False #EnableandconfigureHTTPcaching(disabledbydefault) #Seehttps://docs.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings #HTTPCACHE_ENABLED=True #HTTPCACHE_EXPIRATION_SECS=0 #HTTPCACHE_DIR='httpcache' #HTTPCACHE_IGNORE_HTTP_CODES=[] #HTTPCACHE_STORAGE='scrapy.extensions.httpcache.FilesystemCacheStorage'
main.py
fromscrapy.cmdlineimportexecute execute(['scrapy','crawl','lolskin'])
- 上一篇:[黑色放映机] 悬空魔术
- 下一篇:[无声漫画] 鲁莽的警察闯进了电影拍摄区
猜你还喜欢
- 03-29 [编程相关] Winform窗体圆角以及描边完美解决方案
- 03-29 [前端问题] has been blocked by CORS policy跨域问题解决
- 03-29 [编程相关] GitHub Actions 入门教程
- 03-29 [编程探讨] CSS Grid 网格布局教程
- 10-12 [编程相关] python实现文件夹所有文件编码从GBK转为UTF8
- 10-11 [编程算法] opencv之霍夫变换:圆
- 10-11 [编程算法] OpenCV Camshift算法+目标跟踪源码
- 10-11 [Python] python 创建 Telnet 客户端
- 10-11 [编程相关] Python 基于 Yolov8 + CPU 实现物体检测
- 03-15 [脚本工具] 使用go语言开发自动化脚本 - 一键定场、抢购、预约、捡漏
- 01-08 [编程技术] 秒杀面试官系列 - Redis zset底层是怎么实现的
- 01-05 [编程技术] 《Redis设计与实现》pdf
取消回复欢迎 你 发表评论:
- 精品推荐!
-
- 最新文章
- 热门文章
- 热评文章
[动画] 迪士尼系列动画139部 国英双语音轨 【蓝光珍藏版440GB】
[电影] 莫妮卡贝鲁奇为艺术献身电影大合集 1080P超清 双语字幕
[电影] DC电影宇宙系列合集18部 4K 高码率 内嵌中英字幕 273G
[音乐] 【坤曲/4坤时】鸡你太美全网最全,385首小黑子战歌,黄昏见证虔诚的信徒,巅峰诞生虚伪的拥护!
[音乐] 用餐背景音乐大合集 [MP3/flac]
[书籍] 彭子益医书合集 [PDF/DOC]
[电影] 《环太平洋两部合集》 4K REMUX原盘 [杜比视界] 国英双语音轨 [内封特效字幕] [133.8G]
[电影] 异人之下 The Traveller 2024✨【影版】【4K正式版/HQ超高码/DDP5.1】✚【1080高码】无水印/无压缩
[动漫] 头文字D 动漫 (1998) S01-S06季 1080P 国粤日音轨 续作 剧场版 电影
[小说] 知轩藏书全站7667册txt小说合集精心校对版
[书籍] 彭子益医书合集 [PDF/DOC]
[游戏] 《黑神话悟空》免安装学习版【全dlc整合完整版】+Steam游戏解锁+游戏修改工具!
[动画] 《名侦探柯南》名侦探柯南百万美元的五菱星 [TC] [MP4]
[电视剧集] [BT下载][黑暗城市- 清扫魔 Dark City: The Cleaner 第一季][全06集][英语无字][MKV][720P/1080P][WEB-RAW]
[涨点姿势] 男性性技宝典:14招实战驭女术——爱抚、按摩、催情、姿势、高潮全攻略
[动画] 2002《火影忍者》720集全【4K典藏版】+11部剧场版+OVA+漫画 内嵌简日字幕
[剧集] 《斯巴达克斯》1-4季合集 无删减版 1080P 内嵌简英特效字幕
[CG剧情] 《黑神话:悟空》158分钟CG完整剧情合集 4K120帧最高画质
[短剧] 被下架·禁播的羞羞短剧·午夜短剧合集
[游戏] 黑神话悟空离线完整版+修改器
[影视] 美国内战 4K蓝光原盘下载+高清MKV版/内战/帝国浩劫:美国内战(台)/美帝崩裂(港) 2024 Civil War 63.86G
[影视] 一命 3D 蓝光高清MKV版/切腹 / 切腹:武士之死 / Hara-Kiri: Death of a Samurai / Ichimei 2011 一命 13.6G
[影视] 爱情我你他 蓝光原盘下载+高清MKV版/你、我、他她他 2005 Me and You and Everyone We Know 23.2G
[影视] 穿越美国 蓝光原盘下载+高清MKV版/窈窕老爸 / 寻找他妈…的故事 2005 Transamerica 20.8G
[电影] 《黄飞鸿》全系列合集
[Android] 开罗游戏 ▎像素风格的模拟经营的游戏厂商安卓游戏大合集
[游戏合集] 要战便战 v0.9.107 免安装绿色中文版
[书籍] 彭子益医书合集 [PDF/DOC]
[资源] 精整2023年知识星球付费文合集136篇【PDF格式】
[系统]【黑果小兵】macOS Big Sur 11.0.1 20B50 正式版 with Clover 5126 黑苹果系统镜像下载
- 最新评论
-
有靳东!嘻嘻奥古斯都.凯撒 评论于:10-28 流星花园是F4处女作也是4人集体搭配的唯一一部!奥古斯都.凯撒 评论于:10-28 找了好久的资源,终于在这里找到了。感谢本站的资源和分享。谢谢AAAAA 评论于:10-26 找了好久的资源,终于在这里找到了。感谢本站的资源和分享。谢谢password63 评论于:10-26 找了好久的资源,终于在这里找齐了!!!!blog001 评论于:10-21 找了好久的资源,终于在这里找齐了!!!!blog001 评论于:10-21 找了好久的资源,终于在这里找到了。感谢本站的资源和分享。谢谢WillKwok 评论于:10-09 感谢分享1234123 评论于:10-07 太好了终于找到了谢谢Tom 评论于:10-07 谢谢分享loonghd 评论于:09-30
- 热门tag