Python爬虫第二章(HTMl文件,CSS语言与第三方库Beautiful Soup)
# 导入必要的库
from bs4 import BeautifulSoup
import requests
# 获取网页内容
url = 'https://example.com/some-page'
response = requests.get(url)
# 检查网页是否成功获取
if response.status_code == 200:
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有的段落
paragraphs = soup.find_all('p')
# 打印每个段落的内容
for p in paragraphs:
print(p.text)
else:
print(f"Error: {response.status_code}")
这段代码使用了requests库来获取网页内容,并使用BeautifulSoup来解析HTML,找到所有的段落标签并打印其文本内容。这是爬虫开发中的一个基本示例,展示了如何处理HTML文件和使用CSS选择器来查找特定的元素。
评论已关闭