selenium网络爬虫去哪儿机票利用performance获取日志截获加载的xhr,ajax,js等数据
使用Selenium结合performance获取日志涉及以下步骤:
- 启动支持performance日志记录的浏览器驱动程序。
- 使用Selenium WebDriver操作浏览器。
- 获取performance日志。
- 解析日志以识别加载的XHR, AJAX和JS数据。
以下是一个简单的Python示例,使用Chrome WebDriver和Selenium获取performance日志:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
# 启用性能日志
options = Options()
options.add_experimental_option('perfLoggingPrefs', {'enableNetwork': True})
# 启动WebDriver
driver = webdriver.Chrome(executable_path='path/to/chromedriver', options=options)
# 打开网页
driver.get('https://www.qunar.com/')
# 获取性能数据
logs = driver.get_log('performance')
# 解析日志(简化示例)
for log in logs:
log_entry = json.loads(log['message'])
# 提取关键信息,例如请求的URL和响应代码
for entry in log_entry['message']['entries']:
if 'request' in entry:
print(f"URL: {entry['request']['url']}, Status: {entry['response']['status']}")
# 关闭浏览器
driver.quit()
请注意,实际解析日志时,你需要根据日志的具体格式来提取有关XHR, AJAX和JS数据的详细信息。上面的代码只是一个简单的示例,展示了如何开启performance日志记录,获取日志,并打印出请求的URL和状态码。
评论已关闭