for page in range(49): print(page) # 定位下一页按钮 nextpage_button = driver.find_element_by_link_text('下一页') #点击按键 driver.execute_script("arguments[0].click();", nextpage_button) wait = WebDriverWait(driver,5) #与前面类似 nodes1 = driver.find_elements_by_css_selector('di...
# print("开始爬取第", page, "页") get_data(page) # 每次循环都要调用一次获取数据的函数 next_page = browser.find_element(By.CSS_SELECTOR, 'li.ant-pagination-next>a') next_page.click() # 点击下一页,selenium内置的点击事件 page += 1 # 循环完加一 保存到excel表 使用pandas 将列表中的...
total=wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'div.total'))) total_page=re.compile(r'(\d+)').search(total.text).group(1)print(total_page)returnint(total_page)exceptTimeoutException: search(keyword) 我对上面的代码做一些解释: 1、webdriver可以用Firefox,但是会打开一个页面...
# print(b.page_source) analysis_data(b.page_source) # 关闭当前窗口 b.close() # 将选项卡切换回第一个页面 b.switch_to.window(b.window_handles[0]) print('---一页数据获取完成---') b.find_element(By.ID, 'PageNext').click() time.sleep(4) input() if __name__ == '__main__'...
).text# 去除千分位里的逗号res_unm =int(res_unm.replace(",",'')) page_unm =int(res_unm /20) +1print(f"共找到{res_unm}条结果,{page_unm}页。")if__name__ =='__main__': keyword ="数字普惠金融"driver = webserver() open_page(driver, keyword) 结果如下:...
defsave_to_mongo(self,result):ifself.db['caigou'].insert(result):print("保存成功啦,嘻嘻") 超简单有木有,然后看着满满的“保存成功”,开心! 2.保存到mysql数据库 在初始化函数中加入: # 以下保存到Mysql数据库,不想要可以删掉self.db=pymysql.connect("localhost","root","","test")self.cursor=sel...
print(driver.window_handles) ⑦ current_url 获取当前标签页的URL。 ⑧ title 获取页面标题。 ⑨ name 获取浏览器名称。 ⑩ page_source 获取页面源代码。 ⑪ refresh() / back() / forward() 刷新/ 后退 / 前进。 ⑫ save_screenshot(filename) / get_screenshot_as_file(filename) ...
# 创建一个空列表来存储爬取到的数据 data = [] # 创建一个循环来遍历每个分页 for i in range(len(pagination_links)): # 获取当前分页元素的文本 current_page_text = pagination_links[i].text # 判断当前分页元素是否是数字按钮或更多按钮(省略号) if current_page_text.isdigit() or current_page_te...
(Keys.ENTER) # 输入回车 wait = WebDriverWait(browser, 10) # 显式等待 wait.until(EC.presence_of_element_located((By.ID, 'content_left'))) # 等待直到ID为content_left出现 print(browser.current_url) # 输出当前的url print(browser.get_cookies()) # 输出当前的cookies finally: browser.close(...
print('正在爬取第', page, '页') try: url = 'https://s.taobao.com/search?q=' + quote(KEYWORD) browser.get(url) if page > 1: input = wait.until( EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager div.form > input'))) ...