Python网络爬虫:HTML/CSS/JavaScript介绍
import requests
from bs4 import BeautifulSoup
# 发送HTTP请求获取网页内容
url = 'https://www.example.com'
response = requests.get(url)
# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 提取HTML内容
html_content = soup.prettify()
# 提取CSS内容
css_content = ''
for style in soup('style'):
css_content += style.get_text()
# 提取JavaScript内容
javascript_content = ''
for script in soup('script'):
javascript_content += script.get_text()
# 打印结果
print("HTML 内容:")
print(html_content)
print("\nCSS 内容:")
print(css_content)
print("\nJavaScript 内容:")
print(javascript_content)
这段代码使用了requests
库来发送HTTP请求获取网页内容,使用BeautifulSoup
库来解析HTML,提取出HTML、CSS和JavaScript的内容,并打印输出。这是一个简单的网络爬虫示例,展示了如何处理和分析网页中的这些重要元素。
评论已关闭