2 wangyaninglm wangyaninglm 于 2015.07.20 21:05 提问

python获取100万个不同的URL?

python获取100万个不同的URL?完后写入txt,一行一个,怎么搞?

9个回答

wangyaninglm
wangyaninglm   Ds   Rxr 2015.07.21 10:29
已采纳
oyljerry
oyljerry   Ds   Rxr 2015.07.21 10:31
获取不同的url,你需要有一个源,比如你可以获取alexa的,它提供了topN的URL地址,你请求页面获取结果来提取URL
CSDNXIAON
CSDNXIAON   2015.07.20 21:09

python 获取url的host
----------------------同志你好,我是CSDN问答机器人小N,奉组织之命为你提供参考答案,编程尚未成功,同志仍需努力!

wangyaninglm
wangyaninglm   Ds   Rxr 2015.07.20 21:16

我就艹了,这机器人跟有些人一样,胡乱回答。。。。

caozhy
caozhy   Ds   Rxr 2015.07.20 22:24

你的问题是什么呢,是不会获取100万url,还是不会写文件?你要打算怎么获取呢?你的程序的用途是什么呢。

wangyaninglm
wangyaninglm 您用过什么可以获取URL的python库么?获取不同的URL这块不知道怎么弄
2 年多之前 回复
wangyaninglm
wangyaninglm   Ds   Rxr 2015.07.21 10:27
wangyaninglm
wangyaninglm   Ds   Rxr 2015.07.22 21:55
 import urllib2 


import re 


#connect to a URL 


website = urllib2.urlopen("http://www.baidu.com/s?wd='ll'") 


#read html code 


html = website.read() 


#use re.findall to get all the links 


links = re.findall('"((http|ftp)s?://.*?)"', html) 


print links 

wangyaninglm
wangyaninglm   Ds   Rxr 2015.07.25 01:29

一个阿里的面试题,我做着玩下。
第一个迸发的思路是stl,map。用pair插入时候要是已经存在了url,就给后面的index++,完后按照index排序,测试了一下120m的txt应该有两百万左右,五十秒左右得出结果。
http://blog.csdn.net/wangyaninglm/article/details/47049907

url限制最长256个字符,
大家还有没有更好的思路。

wangyaninglm
wangyaninglm   Ds   Rxr 2015.08.03 08:46

特征提取用的啥算法,这块你先看懂,完了用matlab还是opencv都差不多

Csdn user default icon
上传中...
上传图片
插入图片