以下是一个简单的Python爬虫示例,使用requests和BeautifulSoup库来抓取一个网页的标题。
import requests
from bs4 import BeautifulSoup
def get_page_title(url):
response = requests.get(url)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
return soup.title.string
else:
return "Error: Page not found or the request was not successful"
url = 'https://www.example.com'
title = get_page_title(url)
print(title)
这段代码首先导入了requests和BeautifulSoup。然后定义了一个函数get_page_title
,它接受一个URL作为参数,使用requests发送HTTP GET请求,然后使用BeautifulSoup解析返回的HTML内容,提取页面标题。最后,我们打印出页面的标题。