【Python】Scrapy 爬虫(简单了解)
    		       		warning:
    		            这篇文章距离上次修改已过453天,其中的内容可能已经有所变动。
    		        
        		                
                Scrapy是一个用于创建爬虫的开源和自由的Python框架。它简单而强大,可以用于抓取网站并提取结构化数据。
以下是一个简单的Scrapy爬虫示例,用于抓取一个网站上的链接和标题。
首先,创建一个Scrapy项目:
scrapy startproject myspider然后,进入项目目录,创建一个爬虫:
cd myspider
scrapy genspider basic_spider example.com接下来,编辑爬虫文件 basic_spider.py 以提取链接和标题:
import scrapy
 
class BasicSpider(scrapy.Spider):
    name = 'basic_spider'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com']
 
    def parse(self, response):
        for href in response.css('a::attr(href)').getall():
            yield {'link': href}
 
        for title in response.css('a::attr(title)').getall():
            yield {'title': title}最后,运行爬虫:
scrapy crawl basic_spider -o items.json这个爬虫会抓取 example.com 上的所有链接和带有标题的链接,并将结果保存到 items.json 文件中。这只是Scrapy的一个简单示例,实际应用中可能需要定义更复杂的解析规则和持久化策略。
评论已关闭