《Python3网络爬虫开发实战》-第3章 网页数据的解析提取之pyquery的使用
from pyquery import PyQuery as pq
# 示例HTML字符串
html = '''
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
</ul>
</div>
'''
# 使用pyquery解析HTML字符串
doc = pq(html)
# 提取所有的li标签中的文本内容
items = [item.text() for item in doc('.list .item-0').items()]
print(items) # 输出: ['first item', 'third item']
# 提取所有的a标签的href属性
links = [link.attr('href') for link in doc('.list .item-1 a').items()]
print(links) # 输出: ['link2.html', 'link4.html']
这个代码实例展示了如何使用pyquery库来解析HTML字符串,并提取特定元素的文本内容或属性。代码首先定义了一个HTML字符串,然后使用pyquery的pq()
函数进行解析。接下来,使用CSS选择器来定位特定的元素,并通过.items()
方法迭代这些元素,最后使用.text()
或.attr()
方法来提取文本内容或属性。
评论已关闭