【python爬虫】设计自己的爬虫 4. 封装模拟浏览器 Selenium
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
class MySpider:
def __init__(self, url):
self.url = url
self.driver = webdriver.Chrome() # 或者其他浏览器
def get_page_source(self):
self.driver.get(self.url)
time.sleep(5) # 等待页面加载,可以使用更健壮的等待方式,如下面的显式等待
return self.driver.page_source
def close(self):
self.driver.close()
# 使用示例
spider = MySpider('https://www.example.com')
print(spider.get_page_source())
spider.close()
这段代码定义了一个简单的爬虫类MySpider
,它使用了Selenium的Chrome驱动打开了指定的URL,并获取了页面源码。在实际使用中,你需要安装Selenium库和ChromeDriver,并确保它们在系统的PATH中。time.sleep(5)
用于等待页面加载,这里使用了简单的固定等待,实际应用中应该使用显式等待(WebDriverWait)来更加健壮地等待元素加载。
评论已关闭