python爬虫实战代码
import requests
from bs4 import BeautifulSoup
# 获取网页内容的函数
def get_html(url):
try:
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
return None
except requests.RequestException:
return None
# 解析网页并提取数据的函数
def parse_data(html):
soup = BeautifulSoup(html, 'lxml')
data_list = soup.select('div.item')
for data in data_list:
title = data.select('a')[0].text
detail_url = data.select('a')[0]['href']
print(title, detail_url)
# 主函数
def main():
url = 'https://www.qiushibaike.com/'
html = get_html(url)
parse_data(html)
if __name__ == '__main__':
main()
这段代码首先定义了一个获取网页内容的函数get_html
,使用了requests
库来发送HTTP请求,并设置了请求头来伪装浏览器访问。然后定义了一个解析网页并提取数据的函数parse_data
,使用了BeautifulSoup
库和CSS选择器来选取页面元素。最后,在main
函数中调用了这两个函数,实现了简单的爬虫功能。
评论已关闭