不停下脚步的乌龟 2019-10-18 08:20 采纳率: 75%
浏览 1736
已采纳

关于python爬虫利用正则表达式爬取不到内容的问题

我在用正则表达式爬取豆瓣电影里面的电影演员信息。
网页演员信息的位置如下:

图片说明

那么要爬取其中的这些演员名不就是下面的代码吗?

actors = re.findall(r'<div class="meta abstract_2">(.*?)</div>', resp, re.DOTALL)

其中resp是前面获取到的网页代码

可是print(actors)输出结果为空,请问是哪里不对呀?
有没有大佬就用正则表达式帮忙解答一下?因为我用爬虫只会用正则表达式匹配。

  • 写回答

3条回答 默认 最新

  • 毕小宝 博客专家认证 2019-10-18 09:01
    关注

    爬虫内容解析比较方便的不是正则而是 xpath ,语法也很容易,建议试试这种:

    from lxml import etree  # 解析页面的模块
    html = etree.HTML(top_page)# top_page 你的代码中的页面 text
    result = html.xpath('//div[@class="meta abstract_2"]text()') # 得到 div 的文本内容。
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

悬赏问题

  • ¥15 file converter 转换格式失败 报错 Error marking filters as finished,如何解决?
  • ¥15 ubuntu系统下挂载磁盘上执行./提示权限不够
  • ¥15 Arcgis相交分析无法绘制一个或多个图形
  • ¥15 关于#r语言#的问题:差异分析前数据准备,报错Error in data[, sampleName1] : subscript out of bounds请问怎么解决呀以下是全部代码:
  • ¥15 seatunnel-web使用SQL组件时候后台报错,无法找到表格
  • ¥15 fpga自动售货机数码管(相关搜索:数字时钟)
  • ¥15 用前端向数据库插入数据,通过debug发现数据能走到后端,但是放行之后就会提示错误
  • ¥30 3天&7天&&15天&销量如何统计同一行
  • ¥30 帮我写一段可以读取LD2450数据并计算距离的Arduino代码
  • ¥15 飞机曲面部件如机翼,壁板等具体的孔位模型