fourbigallsky
2016-04-18 08:17
采纳率: 50%
浏览 1.6k
已采纳

一个python正则表达式匹配问题

def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html

def getDest(html):
//some code
return

html = getHtml("http://www.weather.com.cn/weather/101280101.shtml")
print getDest(html)

我想通过上面的代码抓取html里的以下数据,并输出到控制台,主要是天气和温度

图片说明

因为之前没学过python,函数getDest()查了资料半天都没有写出来,求各位给个可用的代码

  • 写回答
  • 好问题 提建议
  • 关注问题
  • 收藏
  • 邀请回答

3条回答 默认 最新

  • NOTHING-BLOG 2016-05-03 15:33
    已采纳

    给你个亲测可用的

    import urllib
    import re
    
    def getHtml(url):
        page = urllib.urlopen(url)
        html = page.read()
        return html
    
    def getDest(html):
        return re.findall(r'<h1>(?P<date_str>[^<]*)</h1>.*?<p title="[^"]*" class="wea">(?P<weather>[^<]*)</p>.*?<i>(?P<temperature>\d+[^<]+)</i>', html, re.S)
    
    for each in getDest(getHtml("http://www.weather.com.cn/weather/101280101.shtml")):
        print each[0], each[1], each[2]
    
    已采纳该答案
    评论
    解决 无用
    打赏 举报
  • oyljerry 2016-04-18 08:20

    你可以先用字符串查找来找到你关心的数据, 正则只是另一种语法。

    评论
    解决 无用
    打赏 举报
  • 斯温jack 2016-06-15 07:05

    题主也可以尝试xpath

    评论
    解决 无用
    打赏 举报

相关推荐 更多相似问题