首先先查看了文章的网址 获取了网页的源代码发现一个问题,源代码里面没有url,这里的话就需要用到抓包了,因为很明显这里显示的内容是进行了一个请求,所以只能通过抓包先拿到请求的url从而获得每一篇文章对应的url,获取到了之后使用python全部下载到了一个文本文件中 这时候我们就拿到了所有文章的链接,接下来写函数实现...
python小小爬虫(一)—— 爬取学校官网通知(仅作为练习使用),无聊拿来玩儿,仅作为练习用。文章目录分析代码效果分析找到
import urllib.request import re import pymysql # 创建一个类用于获取学校官网的十条标题 class GetNewsTitle: # 构造函数 初始化 def __init__(self): self.request = urllib.request.Request("http://www.sict.edu.cn/") # 需要爬取的网址 # 利用正则表达式筛选数据 self.my_re = re.compile( r'...
#__author : "J"#date : 2018-03-06#导入需要用到的库文件importurllib.requestimportreimportpymysql#创建一个类用于获取学校官网的十条标题classGetNewsTitle:#构造函数 初始化def__init__(self): self.request= urllib.request.Request("http://www.sict.edu.cn/")#需要爬取的网址#利用正则表达式筛选数据...
# 将标题写入excel sheet.write(row, 1, month[0].text + day[0].text + "日") # 将日期写入excel sheet.write(row, 2, url) # 将链接写入excel row += 1 xls.save("school.xls") # 为excel文件命名if __name__ == '__main__': school = gevent.spawn(school) # 将函数放入到python协程...