wangyaninglm
shiter
2015-07-20 13:05
采纳率: 67.9%
浏览 1.9k

python获取100万个不同的URL?

python获取100万个不同的URL?完后写入txt,一行一个,怎么搞?

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 邀请回答

7条回答 默认 最新

  • wangyaninglm
    shiter 2015-07-21 02:29
    已采纳
    点赞 评论
  • caozhy

    你的问题是什么呢,是不会获取100万url,还是不会写文件?你要打算怎么获取呢?你的程序的用途是什么呢。

    点赞 评论
  • wangyaninglm
    shiter 2015-07-21 02:27
    点赞 评论
  • oyljerry
    oyljerry 2015-07-21 02:31
    获取不同的url,你需要有一个源,比如你可以获取alexa的,它提供了topN的URL地址,你请求页面获取结果来提取URL
    
    点赞 评论
  • wangyaninglm
    shiter 2015-07-22 13:55
     import urllib2 
    
    
    import re 
    
    
    #connect to a URL 
    
    
    website = urllib2.urlopen("http://www.baidu.com/s?wd='ll'") 
    
    
    #read html code 
    
    
    html = website.read() 
    
    
    #use re.findall to get all the links 
    
    
    links = re.findall('"((http|ftp)s?://.*?)"', html) 
    
    
    print links 
    
    
    点赞 评论
  • wangyaninglm
    shiter 2015-07-24 17:29

    一个阿里的面试题,我做着玩下。
    第一个迸发的思路是stl,map。用pair插入时候要是已经存在了url,就给后面的index++,完后按照index排序,测试了一下120m的txt应该有两百万左右,五十秒左右得出结果。
    http://blog.csdn.net/wangyaninglm/article/details/47049907

    url限制最长256个字符,
    大家还有没有更好的思路。

    点赞 评论
  • wangyaninglm
    shiter 2015-08-03 00:46

    特征提取用的啥算法,这块你先看懂,完了用matlab还是opencv都差不多

    点赞 评论

相关推荐