Python 爬虫快速入门
import requests
from bs4 import BeautifulSoup
# 发送HTTP请求
def get_html(url):
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return "页面无法访问"
except requests.RequestException:
return "发生错误"
# 解析HTML并提取数据
def parse_soup(soup):
data = []
for item in soup.select('div.item'): # 使用CSS选择器选取元素
title = item.select('a')[0].text # 提取标题
link = item.select('a')[0]['href'] # 提取链接
data.append((title, link))
return data
# 主函数
def main(url):
html = get_html(url)
soup = BeautifulSoup(html, 'html.parser') # 使用HTML解析器
parsed_data = parse_soup(soup)
for title, link in parsed_data:
print(f'标题: {title}, 链接: {link}')
# 用例
if __name__ == "__main__":
url = 'https://example.com' # 替换为目标网站的URL
main(url)
这段代码展示了如何使用Python的requests库发送HTTP请求,以及如何使用BeautifulSoup库解析HTML并提取数据。代码中的get_html
函数负责发送请求并获取页面内容,parse_soup
函数负责解析页面并提取标题和链接,最后在main
函数中调用这两个函数来完成整个爬取过程。
评论已关闭