Python 爬虫快速入门

作者：System 时间：2024年08月12日分类：所有,爬虫字数：1066

这篇文章距离上次修改已过502天，其中的内容可能已经有所变动。




import requests
from bs4 import BeautifulSoup
 
# 发送HTTP请求
def get_html(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        else:
            return "页面无法访问"
    except requests.RequestException:
        return "发生错误"
 
# 解析HTML并提取数据
def parse_soup(soup):
    data = []
    for item in soup.select('div.item'):   # 使用CSS选择器选取元素
        title = item.select('a')[0].text  # 提取标题
        link = item.select('a')[0]['href']  # 提取链接
        data.append((title, link))
    return data
 
# 主函数
def main(url):
    html = get_html(url)
    soup = BeautifulSoup(html, 'html.parser')  # 使用HTML解析器
    parsed_data = parse_soup(soup)
    for title, link in parsed_data:
        print(f'标题: {title}, 链接: {link}')
 
# 用例
if __name__ == "__main__":
    url = 'https://example.com'  # 替换为目标网站的URL
    main(url)

这段代码展示了如何使用Python的requests库发送HTTP请求，以及如何使用BeautifulSoup库解析HTML并提取数据。代码中的get_html函数负责发送请求并获取页面内容，parse_soup函数负责解析页面并提取标题和链接，最后在main函数中调用这两个函数来完成整个爬取过程。

Python 爬虫快速入门

评论已关闭

推荐阅读