python_selenium&零基础爬虫学习案例_知网文献信息
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
# 初始化webdriver
driver = webdriver.Chrome()
# 打开中国知网文献信息查询网站
driver.get("http://www.cnki.net/")
# 等待页面加载完成
wait = WebDriverWait(driver, 10)
# 找到搜索框并输入文献信息
input_element = wait.until(EC.presence_of_element_located((By.ID, "txt_select")))
input_element.send_keys("文献信息")
# 提交搜索
input_element.send_keys(Keys.ENTER)
time.sleep(1) # 等待页面跳转
# 获取文献信息
try:
# 假设我们需要获取的信息位于第一个结果中
first_result = driver.find_element_by_xpath('//*[@id="resultList"]/ul/li[1]')
first_result.click() # 点击进入详细页面
# 获取文献详细信息并打印
detail_info = driver.find_element_by_class_name("detail-info")
print(detail_info.text)
except Exception as e:
print("获取文献信息失败:", e)
# 清理工作
driver.quit()
这段代码使用了Selenium和Chrome WebDriver来自动化地进行搜索,并获取了第一个搜索结果的详细页面上的文献信息。这个案例教学了如何使用Selenium进行基本的网页操作和元素定位,并展示了如何获取页面文本信息。在实际应用中,可以根据需要调整XPath或其他定位策略来获取不同的页面元素。
评论已关闭