playwright爬虫

作者：System 时间：2024年08月13日分类：所有,爬虫字数：891

这篇文章距离上次修改已过692天，其中的内容可能已经有所变动。

Playwright 是一个用于网页自动化的框架，可以用于爬虫、测试等场景。以下是一个使用 Playwright 进行简单网页爬取的示例代码：




from playwright.async_api import async_playwright
 
async def run(playwright):
    browser = await playwright.chromium.launch()
    page = await browser.new_page()
    await page.goto('https://example.com/')
    await page.screenshot(path='example.png')
    content = await page.evaluate('() => document.body.textContent')
    print(content)  # 打印网页内容
    await browser.close()
 
async def main():
    async with async_playwright() as playwright:
        await run(playwright)
 
import asyncio
asyncio.run(main())

这段代码首先导入了 async_playwright 模块，然后定义了一个异步函数 run，该函数使用 Playwright 打开一个 Chromium 浏览器实例，然后打开一个新页面并导航至指定的 URL。接着，它会等待页面加载，然后捕获网页的截图并保存。最后，它使用 evaluate 方法获取整个页面的文本内容并打印出来。

请注意，在实际应用中，爬虫应遵守相关法律法规，并尊重网站的 Robots 协议，避免对网站的正常服务造成影响。此外，爬虫应该有适当的延时，并且可能需要处理 JavaScript 动态渲染的内容。

playwright爬虫

评论已关闭

推荐阅读