【python爬虫】设计自己的爬虫 4. 封装模拟浏览器 Selenium

作者：System 时间：2024年08月16日分类：所有,爬虫字数：919

这篇文章距离上次修改已过498天，其中的内容可能已经有所变动。




from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
 
class MySpider:
    def __init__(self, url):
        self.url = url
        self.driver = webdriver.Chrome()  # 或者其他浏览器
 
    def get_page_source(self):
        self.driver.get(self.url)
        time.sleep(5)  # 等待页面加载，可以使用更健壮的等待方式，如下面的显式等待
        return self.driver.page_source
 
    def close(self):
        self.driver.close()
 
# 使用示例
spider = MySpider('https://www.example.com')
print(spider.get_page_source())
spider.close()

这段代码定义了一个简单的爬虫类MySpider，它使用了Selenium的Chrome驱动打开了指定的URL，并获取了页面源码。在实际使用中，你需要安装Selenium库和ChromeDriver，并确保它们在系统的PATH中。time.sleep(5)用于等待页面加载，这里使用了简单的固定等待，实际应用中应该使用显式等待(WebDriverWait)来更加健壮地等待元素加载。

【python爬虫】设计自己的爬虫 4. 封装模拟浏览器 Selenium

评论已关闭

推荐阅读