fourbigallsky 2016-04-18 08:17 采纳率: 50%
浏览 1620
已采纳

一个python正则表达式匹配问题

def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html

def getDest(html):
//some code
return

html = getHtml("http://www.weather.com.cn/weather/101280101.shtml")
print getDest(html)

我想通过上面的代码抓取html里的以下数据,并输出到控制台,主要是天气和温度

图片说明

因为之前没学过python,函数getDest()查了资料半天都没有写出来,求各位给个可用的代码

  • 写回答

3条回答 默认 最新

  • NOTHING-BLOG 2016-05-03 15:33
    关注

    给你个亲测可用的

    import urllib
    import re
    
    def getHtml(url):
        page = urllib.urlopen(url)
        html = page.read()
        return html
    
    def getDest(html):
        return re.findall(r'<h1>(?P<date_str>[^<]*)</h1>.*?<p title="[^"]*" class="wea">(?P<weather>[^<]*)</p>.*?<i>(?P<temperature>\d+[^<]+)</i>', html, re.S)
    
    for each in getDest(getHtml("http://www.weather.com.cn/weather/101280101.shtml")):
        print each[0], each[1], each[2]
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

悬赏问题

  • ¥15 基于卷积神经网络的声纹识别
  • ¥15 Python中的request,如何使用ssr节点,通过代理requests网页。本人在泰国,需要用大陆ip才能玩网页游戏,合法合规。
  • ¥100 为什么这个恒流源电路不能恒流?
  • ¥15 有偿求跨组件数据流路径图
  • ¥15 写一个方法checkPerson,入参实体类Person,出参布尔值
  • ¥15 我想咨询一下路面纹理三维点云数据处理的一些问题,上传的坐标文件里是怎么对无序点进行编号的,以及xy坐标在处理的时候是进行整体模型分片处理的吗
  • ¥15 CSAPPattacklab
  • ¥15 一直显示正在等待HID—ISP
  • ¥15 Python turtle 画图
  • ¥15 stm32开发clion时遇到的编译问题