爬虫爬取动态网页
爬取动态网页通常需要使用工具来处理JavaScript渲染的内容,比如Selenium、Splash、Puppeteer等。以下是使用Selenium和Chrome WebDriver的一个例子:
from selenium import webdriver
# 设置Chrome WebDriver的路径
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless') # 如果你想在后台运行
# 初始化WebDriver
driver = webdriver.Chrome(executable_path='/path/to/chromedriver', options=chrome_options)
# 打开网页
driver.get('http://example.com')
# 等待网页完全加载,或者使用显式等待
# driver.wait()
# 获取网页源代码
html = driver.page_source
# 清理,关闭浏览器
driver.quit()
# 接下来你可以使用BeautifulSoup等库来解析html并提取你需要的数据
确保你已经安装了Selenium库(pip install selenium
)以及对应的Chrome WebDriver,并且更新到与你的Chrome浏览器版本兼容的版本。
这段代码会启动一个无头的Chrome浏览器(如果你没有注释掉--headless
选项),然后加载指定的URL,等待页面加载完成,获取渲染后的HTML源代码,并最后关闭浏览器。你可以根据需要对这段代码进行调整,比如添加用户登录验证、处理下一页的加载或者其他交互等。
评论已关闭