【python】爬取杭州市二手房销售数据做数据分析

由于原始代码已经提供了一个很好的示例,这里只需简要说明如何修改代码以爬取更多页的数据。

首先,需要确定网站上二手房列表的分页方式。如果是传统的分页方式,通常URL会随着页码的变化而改变。在这种情况下,可以通过修改URL中的页码参数来获取不同页的数据。

以下是修改后的部分代码,用于爬取更多页的二手房数据:




# 假设网站的URL结构是这样的:https://www.lianjia.com/ershoufang/beijing/pg2/
# 其中'pg'后面的数字代表页码
 
# 初始化一个列表来存储所有的房源链接
all_house_urls = []
 
# 设置最大页码,例如爬取前5页
max_page = 5
 
for page in range(1, max_page + 1):
    # 构建每一页的URL
    url = f'https://www.lianjia.com/ershoufang/beijing/pg{page}/'
    response = requests.get(url)
    if response.status_code == 200:
        # 解析页面并提取房源链接
        soup = BeautifulSoup(response.text, 'lxml')
        house_urls = soup.find_all('a', class_='title')
        for house_url in house_urls:
            # 提取房源详细页面的URL
            house_url = 'https://www.lianjia.com' + house_url['href']
            all_house_urls.append(house_url)
            # 打印当前正在爬取的页码
            print(f'正在爬取第{page}页,共{len(all_house_urls)}条房源信息')
    else:
        print(f'请求状态码{response.status_code},爬取失败')
 
# 接下来可以使用all_house_urls列表中的URL,逐个请求详细的房源页面,解析数据,进行数据分析等操作

在这个例子中,我们使用了一个循环来遍历1到5页的URL,并将每一页中的房源链接添加到all_house_urls列表中。然后,你可以使用这个列表来获取每个房源的详细信息,并进行数据分析。

请注意,在实际爬取过程中,应遵守网站的robots.txt协议,合理设置请求频率,并处理可能出现的反爬技术。

最后修改于:2024年08月16日 10:25

评论已关闭

推荐阅读

Vue中使用mind-map实现在线思维导图
2024年08月04日
VUE
Web前端最全Vue实现免密登录跳转的方式_vue怎么样不登录返回首页,最强技术实现
2024年08月04日
VUE
vue3 项目搭建教程(基于create-vue,vite,Vite + Vue)
2024年08月04日
VUE
Vue-颜色选择器实现方案——>Vue-Color( 实战*1+ Demo*7)
2024年08月04日
VUE
Vue项目卡顿慢加载?这些优化技巧告诉你!_vue数据多渲染卡顿
2024年08月04日
VUE
vue中的keep-alive详解与应用场景
2024年08月04日
VUE
Vue、React实现excel导出功能(三种实现方式保姆级讲解)
2024年08月04日
vue-office/docx插件实现docx文件预览
2024年08月04日
VUE
java调用js文件的两种方法(支持V8引擎)
2024年08月04日
JavaScript:解决计算精度问题/mathjs/bignumber.js/big.js/decimal.js
2024年08月04日
两周从爬虫小白变大神 _yjs_js_security_passport
2024年08月04日
JS笔记(对象、函数、数组)
2024年08月04日
Markdown.js:强大的纯JavaScript Markdown解析器
2024年08月04日
Vue项目:js模拟点击a标签下载文件并重命名,URL文件地址下载方法、请求接口下载文件方法总结。
2024年08月04日
vue 父组件怎么获取子组件里面的data数据
2024年08月04日
VUE
个人开发实现AI套壳网站快速搭建(Vue+elementUI+SpringBoot)
2024年08月04日
el-table 表格封装并改造实现单元格可编辑
2024年08月04日
none
nodejs环境下创建vue项目、SSH密钥登陆!!!
2024年08月04日
vue+quill+element-ui实现视频、图片上传及缩放保姆级教程,轻松使用富文本
2024年08月04日
【three.js】22. Imported Models导入模型
2024年08月04日