网络爬虫:爬取静态网页与动态网页
在爬取网页数据时,可以使用Python的requests库来获取静态网页和动态网页的数据。对于动态网页,可以使用Selenium、Selenium Wire等工具来模拟浏览器行为获取动态加载的数据。
以下是一个简单的示例,使用requests和Selenium来分别爬取静态和动态网页的数据。
静态网页(例如:httpbin.org/get):
import requests
url = 'http://httpbin.org/get'
response = requests.get(url)
print(response.text)
动态网页(例如:使用JavaScript加载内容的网页):
from selenium import webdriver
from selenium.webdriver.common.by import By
# 启动浏览器
driver = webdriver.Chrome()
# 打开网页
url = 'http://example.com' # 动态网页的URL
driver.get(url)
# 获取网页源代码
page_source = driver.page_source
print(page_source)
# 关闭浏览器
driver.quit()
在实际应用中,可能需要设置代理、处理登录、处理Cookies、解决验证码等问题,以上代码仅提供了基本的爬取方法。
评论已关闭