wy777808 2020-04-03 17:07 采纳率: 100%
浏览 262
已采纳

selenium 正则表达式不知哪里有问题,运行无反应

from selenium import webdriver
import re

def juchao(keyword):

browser = webdriver.Chrome()

url = "http://www.cninfo.com.cn/new/fulltextSearch?notautosubmit=&keyWord=" + keyword

browser.get(url)

data = browser.page_source

# print(data)

browser.quit()



p_title = '<span title class="r-title">(.*?)</span>'

p_href = '<div class="cell"><a target="_blank" href="(.*?)" data-id=.*?</div>'

p_date = '<span class="time">(.*?)</span>'

title = re.findall(p_title, data, re.S)

href = re.findall(p_href, data)

date = re.findall(p_date, data, re.S)



for i in range(len(title)):

    title[i] = re.sub(r'<.*?>', '', title[i])

    href[i] = re.sub('amp;', '', href[i])

    date[i] = date[i].split(' ')[0]

    print(str(i + 1) + '.' + title[i] + '-' + date[i])

    print(href[i])

keywords = ['理财', '现金管理', '纾困']

for i in keywords:

juchao(i)
  • 写回答

1条回答 默认 最新

  • nieoding 2020-04-03 18:14
    关注
    1. 用chrome浏览器仔细审核一下页面元素,看看就知道为什么匹配不到了
    2. 你这里是用re去找元素,干嘛不用selenium的fine_element_byxpath函数去找?比正则不靠谱些吗?
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥15 关于#hadoop#的问题
  • ¥15 (标签-Python|关键词-socket)
  • ¥15 keil里为什么main.c定义的函数在it.c调用不了
  • ¥50 切换TabTip键盘的输入法
  • ¥15 可否在不同线程中调用封装数据库操作的类
  • ¥15 微带串馈天线阵列每个阵元宽度计算
  • ¥15 keil的map文件中Image component sizes各项意思
  • ¥20 求个正点原子stm32f407开发版的贪吃蛇游戏
  • ¥15 划分vlan后,链路不通了?
  • ¥20 求各位懂行的人,注册表能不能看到usb使用得具体信息,干了什么,传输了什么数据