sarras322
sarras322
2015-03-15 07:44
采纳率: 10%
浏览 3.4k

python 如何提取网页所有超链接?

import urllib2
import re

website = urllib2.urlopen(http://www.bxwx.org/b/5/5383/)

html = website.read()

links = re.findall('"((http|ftp)s?://.*?)"', html)

print links

raw_input()

我代码这样,不知道为什么一运行就退出了。

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 邀请回答

4条回答 默认 最新

  • devmiao
    devmiao 2015-03-15 07:47
  • oyljerry
    oyljerry 2015-03-15 07:48

    访问web内容等要用try excpt捕获一下异常,可能访问什么的会有错误返回。

    点赞 评论
  • github_23063173
    chrzha 2015-03-15 09:59

    不知道能不能导进去JSOUP,java里用过这个实现

    点赞 评论
  • u012374229
    黑猫-警长 2015-03-15 13:14

    coding=utf-8

    """
    提取网页上所有超链接
    """
    import urllib2
    import BeautifulSoup as bs

    html = urllib2.urlopen('http://www.bxwx.org/b/5/5383/').read()
    soup = bs.BeautifulSoup(html)
    links = soup.findAll('a')
    print links

    点赞 评论

相关推荐