《Python3网络爬虫开发实战》-第3章网页数据的解析提取之pyquery的使用

作者：System 时间：2024年08月13日分类：所有,爬虫字数：912

这篇文章距离上次修改已过684天，其中的内容可能已经有所变动。




from pyquery import PyQuery as pq
 
# 示例HTML字符串
html = '''
<div id="container">
    <ul class="list">
        <li class="item-0">first item</li>
        <li class="item-1"><a href="link2.html">second item</a></li>
        <li class="item-0"><a href="link3.html"><span class="bold">third item</span></a></li>
        <li class="item-1"><a href="link4.html">fourth item</a></li>
    </ul>
</div>
'''
 
# 使用pyquery解析HTML字符串
doc = pq(html)
 
# 提取所有的li标签中的文本内容
items = [item.text() for item in doc('.list .item-0').items()]
print(items)  # 输出: ['first item', 'third item']
 
# 提取所有的a标签的href属性
links = [link.attr('href') for link in doc('.list .item-1 a').items()]
print(links)  # 输出: ['link2.html', 'link4.html']

这个代码实例展示了如何使用pyquery库来解析HTML字符串，并提取特定元素的文本内容或属性。代码首先定义了一个HTML字符串，然后使用pyquery的pq()函数进行解析。接下来，使用CSS选择器来定位特定的元素，并通过.items()方法迭代这些元素，最后使用.text()或.attr()方法来提取文本内容或属性。

《Python3网络爬虫开发实战》-第3章网页数据的解析提取之pyquery的使用

评论已关闭

推荐阅读