HeroKern
2016-07-06 08:32
采纳率: 71.4%
浏览 1.3k
已采纳

pyhon提取url路径转换

pyhon提取url路径有的是相对路径,怎么可以转换成绝对路径呢?最好是贴代码

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 邀请回答

3条回答 默认 最新

  • HeroKern 2016-07-06 09:33
    已采纳

    正则表达式不怎么熟悉 上面是我获取直接地址的代码 你看怎么添加你的代码 解决立即给分

    点赞 打赏 评论
  • 鱼弦 2016-07-06 09:14

    正则可以 有忽略 大小写的 选项吧
    compile(pattern, [flags]) 如I 表示大小写忽略
    js中的哪是url? py也没法直接解析吧 可以sniffer http的request和respond 然后 模拟js的功能
    pyquery里面直接可以
    生成绝对链接
    用户可以生成绝对链接,这在抓屏过程中很有效:

    d = pq(url='http://www.w3.org/', parser='html')
    d('a[title="W3C Activities"]').attr('href')
    '/Consortium/activities'
    d.make_links_absolute()
    []
    d('a[title="W3C Activities"]').attr('href')
    'http://www.w3.org/Consortium/activities'

    点赞 打赏 评论
  • HeroKern 2016-07-06 09:32

    #coding=utf-8

    import urllib

    import urllib2

    import re

    def getHtml(url):

    headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}  
    req = urllib2.Request(url,headers=headers)  
    
    page = urllib2.urlopen(req);  
    html = page.read()  
    return html  
    

    def getImg(html):

    reg = r'src="(h.*?g)"'

    #reg = r'<img src="(.+?.jpg)"'

    imgre = re.compile(reg)

    imglist = re.findall(imgre,html)

    print imglist

    x = 0

    for imgurl in imglist:

    urllib.urlretrieve(imgurl,'%s.jpg' % x)

    x+=1

    html = getHtml("http://pic.yxdown.com/list/0_0_1.html")

    print getImg(html)

    点赞 打赏 评论

相关推荐 更多相似问题