Python网络爬虫：HTML/CSS/JavaScript介绍

作者：System 时间：2024年08月14日分类：所有,css 字数：741

这篇文章距离上次修改已过715天，其中的内容可能已经有所变动。




import requests
from bs4 import BeautifulSoup
 
# 发送HTTP请求获取网页内容
url = 'https://www.example.com'
response = requests.get(url)
 
# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
 
# 提取HTML内容
html_content = soup.prettify()
 
# 提取CSS内容
css_content = ''
for style in soup('style'):
    css_content += style.get_text()
 
# 提取JavaScript内容
javascript_content = ''
for script in soup('script'):
    javascript_content += script.get_text()
 
# 打印结果
print("HTML 内容:")
print(html_content)
print("\nCSS 内容:")
print(css_content)
print("\nJavaScript 内容:")
print(javascript_content)

这段代码使用了requests库来发送HTTP请求获取网页内容，使用BeautifulSoup库来解析HTML，提取出HTML、CSS和JavaScript的内容，并打印输出。这是一个简单的网络爬虫示例，展示了如何处理和分析网页中的这些重要元素。

Python网络爬虫：HTML/CSS/JavaScript介绍

评论已关闭

推荐阅读