【机器学习报告】我用链家的数据做了一个超过链家模型的二手房房价预测模型

最新推荐文章于 2024-08-21 14:19:27 发布

置顶

是算法不是法术

最新推荐文章于 2024-08-21 14:19:27 发布

阅读量4.9k

收藏 80

点赞数 15

分类专栏：机器学习文章标签：机器学习数据分析数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/weixin_45839693/article/details/112640815

版权

本文详述了一项使用机器学习预测二手房成交价的项目，目标是建立一个优于链家模型的预测系统。作者通过爬虫获取北京二手房数据，进行数据清洗、特征处理、模型训练与优化，最终通过模型融合提升预测精度。在与链家模型的PK中，作者的模型在测试集上的平均误差显著低于链家模型，证明了其优越性。

摘要由CSDN通过智能技术生成

我用链家的数据做的二手房房价预测模型，打败了链家自己的模型

前言

爬虫准备
特征展示
变量统计性描述
数据处理
- 数据清洗与异常值过滤
- 数据截断
- 数据集划分：

模型与分析

第一轮迭代
第二轮迭代

K折验证

链家估价模型
测试集准备
模型PK

前言

在二手房交易市场中，普遍存在挂盘价与成交价偏差大的问题，如何精准预测二手房成交价成为一大难题。本模型的目标是训练出一个根据二手房相关特征来数据预测二手房成交价的模型，保证预测准确度要优于网站的预测模型，并给二手房出售标价提供参考价值。
（好吧这其实是我这学期数据挖掘课的大作业）

数据准备

爬虫准备

数据来源: 数据来自链家的官方交易网站https://bj.lianjia.com/chengjiao/，为了保证数据量足够大，我们的任务瞄准了北京的二手房成交信息。
数据获取: 使用python编写异步爬虫脚本，该多线程脚本大大减少了爬虫所需的时间，使用了aiohttp、asyncio、lxml等相关库
获取分布合理的数据集: 考虑到网站上只列出了100页具有相同约束的交易记录，总计达3000条记录，这对于训练数据集来说太小了。因此，我们选择使用几个属性的组合来扩展网站提供的记录。用价格和面积相结合，可以得到56*100页的数据量，同时也保证了数据分布的流畅性。

特征展示

决策变量：
特征变量：

变量统计性描述

决策变量 total_price 成交价：对0-1500万的房屋绘制直方图和密度图，我们可以发现数据是比较均匀的，绝大部分处于100-500万。
average_price 小区交易成交均价：对小区交易成交均价绘制直方图和密度图，均价集中在1-7万。
district 所在行政区：对所在行政区绘制柱状图，可以看出我们的数据分布在北京各个行政区，较为平衡。其中，在昌平区和朝阳区的交易二手房较多。
date_of_deal 成交日期：通过成交日期的柱状图，我们可以看出大部分数据是分布在2019、2020年，其他年份的数据是较少的。
completion_year 建成年限：通过柱状图可以看出，房屋的建成年限集中分布在1990年到2014年。
成交价与建筑面积的相关性分析：通过散点图，我们可以看出成交价与建筑面积呈现明显的正相关趋势，这暗示建筑面积是个强相关变量。

数据处理

数据清洗与异常值过滤

去除数据中house_type为车位的数据
去除total_price、average_price、built_up_area为空数据
去除built_up_area > 10000 and built_up_area < 5的数据
去除total_price > 10亿的数据

数据截断

对于回归问题，考虑到数据的分布以及模型训练的有效性，我们将目标锁定为：

售价小于2000万的样本
包含成交10个及以上的小区样本
成交年份在2019至2020年的样本
最终我们得到共77766条有效样本

数据集划分：

考虑到数据和模型的时效性，我们将成交于2020年的样本随机划分为7比3的份额，将2019年数据与70%的2020年数据作为训练集，30%的2020年数据作为验证集。
最终我们得到65897个训练样本，11869个验证样本。
训练集与验证集total_price、build_up_area数

最低0.47元/天解锁文章

是算法不是法术

15
点赞
踩
80

收藏

觉得还不错? 一键收藏
24
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

是算法不是法术 CSDN认证博客专家 CSDN认证企业博客

41: 原创

29万+: 周排名

37万+: 总排名

9万+: 访问

: 等级

1030: 积分

298: 粉丝

203: 获赞

194: 评论

771: 收藏

写文章

热门文章

【论文复现】SimCSE对比学习: 文本增广是什么牛马，我只需要简单Dropout两下 21816
信息抽取（四）【NLP论文复现】Multi-head Selection和Deep Biaffine Attention在关系抽取中的实现和效果 6854
语义匹配（一）【NLP论文复现】Sentence-BERT 句子语义匹配模型的tensorflow实现以及训练Trick 6344
信息抽取（五）实体命名识别之嵌套实体识别哪家强，我做了一个简单的对比实验 5345
文本生成（一）【NLP论文复现】Unified Language Model 文本生成从未如此轻松 5235

分类专栏

NLP 18篇
机器学习 1篇
多标签分类 2篇
统计学习方法 17篇
强化学习 3篇

最新评论

信息抽取（五）实体命名识别之嵌套实体识别哪家强，我做了一个简单的对比实验
郢中歌353: 请问能分享一下数据集吗
信息抽取（四）【NLP论文复现】Multi-head Selection和Deep Biaffine Attention在关系抽取中的实现和效果
Tajo: 楼主这文章好像变vip文章了，请问这是您的意思吗，因为我知道平台会自动把一些文章转为vip文章。
【机器学习报告】我用链家的数据做了一个超过链家模型的二手房房价预测模型
2301_76766679: 跪求开源代码！邮箱2812820173@qq.com
【机器学习报告】我用链家的数据做了一个超过链家模型的二手房房价预测模型
-bw-: 跪求开源代码和数据集，邮箱：1329696875@qq.com
【论文复现】SimCSE对比学习: 文本增广是什么牛马，我只需要简单Dropout两下
weixin_41508814: 您好，请问下，hj+指的是负样本吗，看论文这个地方有点迷糊，既然是负样本为啥不写个符号要写成hj+,还以为是正样本

大家在看

2025最新大数据专业毕设选题，Spark相关的选题，全部可以加算法 40
2025最新大数据专业毕设选题，Hive相关的选题，全部可以加算法 181
usb server完成国产化信创迁移 235
2025最新大数据专业毕设选题，全部可以加算法

最新文章

【比赛报告】biendata_2021搜狐校园文本匹配算法大赛_解决方案
信息抽取（五）实体命名识别之嵌套实体识别哪家强，我做了一个简单的对比实验
【论文复现】SimCSE对比学习: 文本增广是什么牛马，我只需要简单Dropout两下

目录

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

成就一亿技术人!

发出的红包

使用余额支付

点击重新获取

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

深圳坪山网站建设公司滨江百度网站优化服务鹤壁实力网站优化价格网站优化工作难点查看网站优化的软件广东省汕头市网站关键词优化福田怎么样进行网站优化公司贵定网站seo优化公司长宁区百度网站优化价格网站哪种排列利于优化医疗行业网站优化传播在线游戏网站出口优化重庆网站优化内容网站模板如何优化崇明区企业网站优化机构拉萨网站优化鹊起科技云南网站优化推广报价免加盟费的网站优化代理项目深圳怎样在网站优化排名长安新增网站优化搜索推广台山百度网站优化排名优化网站优质公司网站建设新网站如何做好优化武汉网站排名优化费用诸城招聘网站优化 seo外包优化网站价格低如何做外贸网站优化新的网站该怎样优化宁波公司网站排名优化介休网站优化怎么做网站关键词优化应该怎么做香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户 315晚会后胖东来又人满为患了高校汽车撞人致3死16伤司机系学生张家界的山上“长”满了韩国人？张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲 “重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后原水城县长再被查凯特王妃现身！外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人多人受伤

深圳坪山网站建设公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化