Python：这是一个朴实无华的爬虫教程，就是有点养眼，Python技术图谱

作者：System 时间：2024年08月12日分类：所有,爬虫字数：874

这篇文章距离上次修改已过687天，其中的内容可能已经有所变动。




import requests
from bs4 import BeautifulSoup
 
# 爬取网页的函数
def crawl_page(url):
    response = requests.get(url)
    if response.status_code == 200:
        return response.text
    else:
        return None
 
# 解析网页并提取信息的函数
def parse_soup(soup):
    title = soup.find('h1', class_='post-title').get_text()
    content = soup.find('div', class_='post-content').get_text()
    return title, content
 
# 主函数，组装URL并调用爬取和解析函数
def main(url):
    html = crawl_page(url)
    if html:
        soup = BeautifulSoup(html, 'html.parser')
        title, content = parse_soup(soup)
        print(f"标题: {title}")
        print(f"内容: {content}")
    else:
        print("网页爬取失败")
 
# 示例URL
example_url = 'https://www.example.com/some-post'
 
# 运行主函数
main(example_url)

这段代码使用了requests库来爬取网页，使用BeautifulSoup库来解析HTML，并提取了一个假设的博客文章页面的标题和内容。这个例子简单且直接，适合作为教学使用。

Python：这是一个朴实无华的爬虫教程，就是有点养眼，Python技术图谱

评论已关闭

推荐阅读