Python 爬虫学习路线图
# 导入必要的模块
import requests
from bs4 import BeautifulSoup
# 定义一个简单的爬虫函数,用于抓取网页内容
def simple_crawler(url):
try:
response = requests.get(url) # 发送HTTP GET请求
if response.status_code == 200: # 请求成功
return response.text # 返回网页内容文本
except requests.RequestException:
return "Error: 无法获取网页内容"
# 使用BeautifulSoup解析网页内容
def parse_html(html_content):
soup = BeautifulSoup(html_content, 'html.parser') # 使用html.parser解析器
return soup.title.text # 返回页面标题文本
# 主函数,用于演示如何使用上述定义的函数
def main():
url = "https://www.example.com" # 替换为你想爬取的网页URL
html_content = simple_crawler(url)
if html_content:
page_title = parse_html(html_content)
print(f"网页标题是: {page_title}")
else:
print("无法获取网页内容")
# 如果这个脚本被直接运行,则执行main函数
if __name__ == "__main__":
main()
这段代码展示了如何使用Python的requests模块来发送HTTP GET请求,以及如何使用BeautifulSoup来解析HTML内容。这是学习Python网络爬虫的基本步骤。
评论已关闭