playwright爬虫
Playwright 是一个用于网页自动化的框架,可以用于爬虫、测试等场景。以下是一个使用 Playwright 进行简单网页爬取的示例代码:
from playwright.async_api import async_playwright
async def run(playwright):
browser = await playwright.chromium.launch()
page = await browser.new_page()
await page.goto('https://example.com/')
await page.screenshot(path='example.png')
content = await page.evaluate('() => document.body.textContent')
print(content) # 打印网页内容
await browser.close()
async def main():
async with async_playwright() as playwright:
await run(playwright)
import asyncio
asyncio.run(main())
这段代码首先导入了 async_playwright
模块,然后定义了一个异步函数 run
,该函数使用 Playwright 打开一个 Chromium 浏览器实例,然后打开一个新页面并导航至指定的 URL。接着,它会等待页面加载,然后捕获网页的截图并保存。最后,它使用 evaluate
方法获取整个页面的文本内容并打印出来。
请注意,在实际应用中,爬虫应遵守相关法律法规,并尊重网站的 Robots 协议,避免对网站的正常服务造成影响。此外,爬虫应该有适当的延时,并且可能需要处理 JavaScript 动态渲染的内容。
评论已关闭