Python:这是一个朴实无华的爬虫教程,就是有点养眼,Python技术图谱
import requests
from bs4 import BeautifulSoup
# 爬取网页的函数
def crawl_page(url):
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return None
# 解析网页并提取信息的函数
def parse_soup(soup):
title = soup.find('h1', class_='post-title').get_text()
content = soup.find('div', class_='post-content').get_text()
return title, content
# 主函数,组装URL并调用爬取和解析函数
def main(url):
html = crawl_page(url)
if html:
soup = BeautifulSoup(html, 'html.parser')
title, content = parse_soup(soup)
print(f"标题: {title}")
print(f"内容: {content}")
else:
print("网页爬取失败")
# 示例URL
example_url = 'https://www.example.com/some-post'
# 运行主函数
main(example_url)
这段代码使用了requests库来爬取网页,使用BeautifulSoup库来解析HTML,并提取了一个假设的博客文章页面的标题和内容。这个例子简单且直接,适合作为教学使用。
评论已关闭