作业1:通过爬虫爬取链家的新房数据,并进行预处理。 最终的csv文件,应包括以下字段:名称,地理位置(3个字段分别存储),房型(只保留最小房型),面积(按照最小值),总价(万元,整数),均价(万元,保留小数点后4位); 对于所有字符串字段,要求去掉所有的前后空格; 如果有缺失数据,不用填充。 找出总价最贵和最便宜的房子...
self.file.close() 最后是spider文件,其中headers是直接从浏览器network复制下来,确保无误,不过由于我复制下来的headers没有'Host'信息,所以新加了一项:'Host': 'www.xuetangx.com';由于要创建POST请求,需要重写start_requests函数,并且爬取前五页数据,所以使用for循环创建5个FormRequest(),其中FormRequest的参数有:u...