登录 | 注册

首页
酷软
系统
游戏
媒体
- 电影
- 剧集
- 动画
- 记录
- 综艺
- MV
- 有声世界
云资源
源码
更多
- 文库
- web
- 站长帮
- 玩电脑
- 玩游戏
- 玩手机
- 涨姿势
- 玩软件
- 云图志
- 看漫画
- 微读书
- PS玩家
- 网文网语
- 硬件数码
- 编程开发
- 神秘之旅
- 福利线报
- 商业资源
- 网赚相关
- 健康加油站
赞助专区
云盘专区
资源阁
缘聚岛

当前位置：网站首页 > 更多 > 涨姿势 > 正文

[每日一学] 用Python处理HTML转义字符的5种方式

作者：CC下载站日期：2020-10-25 00:00:00 浏览：61 分类：涨姿势

写爬虫是一个发送请求，提取数据，清洗数据，存储数据的过程。在这个过程中，不同的数据源返回的数据格式各不相同，有 JSON 格式，有 XML 文档，不过大部分还是 HTML 文档，HTML 经常会混杂有转移字符，这些字符我们需要把它转义成真正的字符。

什么是转义字符

在 HTML 中<、>、&等字符有特殊含义（<，> 用于标签中，& 用于转义），他们不能在 HTML 代码中直接使用，如果要在网页中显示这些符号，就需要使用 HTML 的转义字符串（Escape Sequence），例如<的转义字符是<，浏览器渲染 HTML 页面时，会自动把转移字符串换成真实字符。

转义字符（Escape Sequence）由三部分组成：第一部分是一个 & 符号，第二部分是实体（Entity）名字，第三部分是一个分号。比如，要显示小于号（<），就可以写<。

Python 反转义字符串

用 Python 来处理转义字符串有多种方式，而且 py2 和 py3 中处理方式不一样，在 python2 中，反转义串的模块是HTMLParser。

#python2
importHTMLParser
>>>HTMLParser().unescape('a=1&amp;b=2')
'a=1&b=2'

Python3 把 HTMLParser 模块迁移到html.parser

#python3
>>>fromhtml.parserimportHTMLParser
>>>HTMLParser().unescape('a=1&amp;b=2')
'a=1&b=2'

到 python3.4 之后的版本，在 html 模块新增了 unescape 方法。

#python3.4
>>>importhtml
>>>html.unescape('a=1&amp;b=2')
'a=1&b=2'

推荐最后一种写法，因为 HTMLParser.unescape 方法在 Python3.4 就已经被废弃掉不推荐使用，意味着之后的版本有可能会被彻底移除。

另外，sax 模块也有支持反转义的函数

>>>fromxml.sax.saxutilsimportunescape
>>>unescape('a=1&amp;b=2')
'a=1&b=2'

上一篇：[知识总结] eladmin JPA转Mybatis与后端框架迭代更新历程
下一篇：[服务器教程] 腾讯云轻量应用服务器东京区域深度测评

猜你还喜欢

您需要登录账户后才能发表评论

取消回复欢迎你发表评论:

: 主域名：https://www.cdz423.com/

精品推荐！: 115联盟：在家兼职也能月入过万

任推帮：不扣量的项目拉新平台

辰讯云服务器：高性能、可靠的云计算平台

: 欢迎访客登录没有账号？

最新文章
热门文章
热评文章

最新评论

电影很不错谢谢分享贪睡的猫评论于：11-18
一部不错的经典科幻kelvin 评论于：11-13
找了好久的资源，终于在这里找到了。感谢本站的资源和分享。谢谢285552528 评论于：11-09
找了好久的资源bjzchzch12 评论于：11-07
谢谢分享感谢ppy2016 评论于：11-05
谢谢分享感谢ppy2016 评论于：11-05
有靳东！嘻嘻奥古斯都.凯撒评论于：10-28
流星花园是F4处女作也是4人集体搭配的唯一一部！奥古斯都.凯撒评论于：10-28
找了好久的资源，终于在这里找到了。感谢本站的资源和分享。谢谢AAAAA 评论于：10-26
找了好久的资源，终于在这里找到了。感谢本站的资源和分享。谢谢password63 评论于：10-26

友情链接

关灯