Python 爬虫:如何用 BeautifulSoup 爬取网页数据
from urllib.request import urlopen
from bs4 import BeautifulSoup
# 目标网页URL
url = 'http://example.com/'
# 发送请求,获取网页内容
resp = urlopen(url)
html_content = resp.read()
# 解析网页内容,生成BeautifulSoup对象
soup = BeautifulSoup(html_content, 'html.parser')
# 提取数据
# 例如,提取所有的段落文本
paragraphs = soup.find_all('p')
for p in paragraphs:
print(p.get_text())
# 例如,提取所有的链接地址
links = soup.find_all('a')
for link in links:
print(link.get('href'))
这段代码展示了如何使用urllib.request
库来获取网页内容,并使用BeautifulSoup
来解析网页,然后提取所有段落文本和链接地址。这是爬虫技术中的基本应用,适用于学习和小型数据抓取任务。
评论已关闭