cchengfengf 2022-10-17 20:30 采纳率: 0%
浏览 11

selenium无法爬取内容

代码:

import numpy as np
import pandas as pd
import time
from urllib import request
import os

导入模块

from selenium import webdriver

指定网址 华润万家 https://tousu.sina.com.cn/company/view/?couid=2015149711

url = 'https://tousu.sina.com.cn/company/view/?couid=2015149711%27
driver = webdriver.Chrome(r"C:\Users\CchengFengF\Desktop\大四上期末\chromedriver.exe")
driver.get(url)

from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.keys import Keys

设置高度变量

aims = 10
num = 0
while True:
# 对高度进行对比
if num == aims:
break
else:
# 模拟键盘 PgDn进行翻页
ActionChains(driver).send_keys(Keys.PAGE_DOWN).perform()
time.sleep(1)
num+=1
print(num)

pageSource = driver.page_source
pageSource

from bs4 import BeautifulSoup
soup = BeautifulSoup(pageSource, 'html.parser')

titles = []
for span in soup.find_all('div', class_='m-i-tit'):
print(span.find('h2').text)
titles.append(span.find('h2').text)

contents = []
for span in soup.find_all('div', class_='m-i-cont'):
print(span.find('p').text)
contents.append(span.find('p').text)

labels = []
for span in soup.find_all('div', class_='m-i-list'):
print(span.find('li').text)
labels.append(span.find('li').text)

print(len(titles),len(contents),len(labels))

最后print出来的都是0

img

  • 写回答

1条回答 默认 最新

  • CSDN-Ada助手 CSDN-AI 官方账号 2022-10-17 21:12
    关注
    评论

报告相同问题?

问题事件

  • 创建了问题 10月17日

悬赏问题

  • ¥50 如何在不能联网影子模式下的电脑解决usb锁
  • ¥20 服务器redhat5.8网络问题
  • ¥15 如何利用c++ MFC绘制复杂网络多层图
  • ¥20 要做柴油机燃烧室优化 需要保持压缩比不变 请问怎么用AVL fire ESE软件里面的 compensation volume 来使用补偿体积来保持压缩比不变
  • ¥15 python螺旋图像
  • ¥15 算能的sail库的运用
  • ¥15 'Content-Type': 'application/x-www-form-urlencoded' 请教 这种post请求参数,该如何填写??重点是下面那个冒号啊
  • ¥15 找代写python里的jango设计在线书店
  • ¥15 请教如何关于Msg文件解析
  • ¥200 sqlite3数据库设置用户名和密码