html2text,一个强大的 Python 库!
html2text是一个Python库,用于将HTML转换为纯文本。它可以保留格式、链接、列表和其他常见的HTML元素。
以下是一个简单的使用html2text库的例子:
import html2text
# 创建html2text的实例
h = html2text.HTML2Text()
# 定义要转换的HTML字符串
html_data = """
<h1>欢迎来到我的网站</h1>
<p>这是一个段落。</p>
<a href="http://example.com">这是一个链接</a>
<ul>
<li>列表项一</li>
<li>列表项二</li>
</ul>
"""
# 调用 .handle(html_data) 方法进行转换
text = h.handle(html_data)
print(text)
运行上述代码,会将HTML内容转换为纯文本,并打印出来。这个库非常适合处理网络爬虫、RSS提要解析、邮件正文生成等任务。
评论已关闭