从零开始的 Python 爬虫速成指南_py爬虫速成
import requests
from bs4 import BeautifulSoup
# 初始化爬虫的 URL
url = 'https://example.webscraping.com/places/default/view/Afghanistan-1'
# 发送 HTTP 请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 使用 BeautifulSoup 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 提取标题
title = soup.find('h1', {'class': 'page-title'}).text.strip()
print(f'标题: {title}')
# 提取国家名称
country_name = soup.find('div', {'class': 'field-item even'}).text.strip()
print(f'国家名称: {country_name}')
# 提取介绍
introduction = soup.find('div', {'class': 'field-item even'}).text.strip()
print(f'介绍: {introduction}')
# 提取人口
population = soup.find('div', {'class': 'field-content'}).text.strip()
print(f'人口: {population}')
# 提取面积
area = soup.find('div', {'class': 'field-content'}).text.strip()
print(f'面积: {area}')
# 提取城市人口
city_population = soup.find('div', {'class': 'field-content'}).text.strip()
print(f'城市人口: {city_population}')
else:
print('请求失败')
这段代码使用了 requests
库来发送 HTTP 请求,并使用 BeautifulSoup
来解析网页。代码提取了特定的数据,并打印出来。这个例子展示了如何从一个特定的 URL 抓取简单的数据,是学习网页爬虫的基础。
评论已关闭