鐘鐘空 2021-04-11 16:07 采纳率: 75%
浏览 41
已采纳

re.compile提取网页信息

#片名链接
<img src="https://img3.doubanio.com/f/sns/5741f726dfb46d89eb500ed038833582c9c9dcdb/pics/sns/doulist/ic_play_web@2x.png" style="width: 16px; vertical-align: text-top;"/>
        肖申克的救赎 The Shawshank Redemption
      </a>

#图片链接
<img src="https://img2.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg"/>

#提取片名
???

#提取图片
#findImgSrc = re.compile(r'<img src = (.*?)>')

正在学习python爬虫知识,前些阵子写代码遇到一些问题,想爬豆瓣上的电影信息,目前图片和片名的提取方式可能有误,用findall得到的数据输出全是[],不知道该咋办了,图片前两行是原网页的信息,”提取片名“目前不知道怎么写了,“提取图片”那里错误也不知道在哪,希望有大佬来解惑,十分感谢!!!

  • 写回答

1条回答 默认 最新

  • coagenth 2021-04-11 23:42
    关注
    s ='''<img src="https://img3.doubanio.com/f/sns/5741f726dfb46d89eb500ed038833582c9c9dcdb/pics/sns/doulist/ic_play_web@2x.png" style="width: 16px; vertical-align: text-top;"/>
            肖申克的救赎 The Shawshank Redemption
          </a>'''
    
    import re 
    img=re.findall(r'<img src=\"(.*?)\"',s)
    name=re.findall(r'<img.*/>\s+(.*?)\s+</a>',s)
    print(img)
    print(name)
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥15 如何用Labview在myRIO上做LCD显示?(语言-开发语言)
  • ¥15 Vue3地图和异步函数使用
  • ¥15 C++ yoloV5改写遇到的问题
  • ¥20 win11修改中文用户名路径
  • ¥15 win2012磁盘空间不足,c盘正常,d盘无法写入
  • ¥15 用土力学知识进行土坡稳定性分析与挡土墙设计
  • ¥70 PlayWright在Java上连接CDP关联本地Chrome启动失败,貌似是Windows端口转发问题
  • ¥15 帮我写一个c++工程
  • ¥30 Eclipse官网打不开,官网首页进不去,显示无法访问此页面,求解决方法
  • ¥15 关于smbclient 库的使用