首页
酷软
系统
游戏
媒体
- 电影
- 剧集
- 动画
- 记录
- 综艺
- MV
- 有声世界
云资源
源码
更多
- 文库
- web
- 站长帮
- 玩电脑
- 玩游戏
- 玩手机
- 涨姿势
- 玩软件
- 云图志
- 看漫画
- 微读书
- PS玩家
- 网文网语
- 硬件数码
- 编程开发
- 神秘之旅
- 福利线报
- 商业资源
- 网赚相关
- 健康加油站
赞助专区
云盘专区
资源阁
缘聚岛

[Python] 贝壳租房爬虫

作者：CC下载站日期：2021-11-25 00:00:00 浏览：79 分类：编程开发

import urllib.request as request

from bs4 import BeautifulSoup
import os


def downloadImg(url: str, name):
    soup = BeautifulSoup(str(request.urlopen(url).read(), encoding='utf-8'), features='html.parser')
    savePath = f"./result/images/{name.replace('/', '-')}"
    if not os.path.exists(savePath):
        os.mkdir(savePath)
    for img in soup.select('div.content__article__slide__item > img'):
        img = img.get('data-src')
        with open(f"{savePath}/{img.split('/')[-1].split('!')[0].split('?')[0]}", 'wb') as f:
            f.write(request.urlopen(img).read())


def a():
    with open('./result/list.txt', 'w', encoding='utf-8') as f:
        for i in range(1, 11):
            url = f'https://cs.zu.ke.com/zufang/pg{i}/#contentList'
            data = str(request.urlopen(url).read(), encoding='utf-8')
            soup = BeautifulSoup(data, features='html.parser')
            for item in soup.find_all('div', attrs={'class': 'content__list--item'}):
                imgTag = item.find('img')
                imgUrl = imgTag.get('data-src')
                print(imgUrl)
                title = imgTag.get('alt')
                print(title)
                downloadImg(
                    f"https://cs.zu.ke.com{item.find('a', attrs={'class': 'content__list--item--aside'}).get('href')}",
                    title)
                des = item.find('p', attrs={'class': 'content__list--item--des'}) \
                    .get_text().replace('\n', '').replace(' ', '')
                print(des)
                price = item.find('span', attrs={'class': "content__list--item-price"}).get_text()
                print(price)
                tags = [tag.get_text() for tag in
                        item.find('p', attrs={'class': 'content__list--item--bottom oneline'}).select('p > i')]
                print(tags)
                f.write(f'{title},{des},{price},{tags}\n')
                print('*' * 30)


if __name__ == '__main__':
    os.mkdir('/result')
    a()