2 wangyaninglm wangyaninglm 于 2015.07.20 21:05 提问

python获取100万个不同的URL?

python获取100万个不同的URL?完后写入txt,一行一个,怎么搞?

9个回答

wangyaninglm
wangyaninglm   Ds   Rxr 2015.07.21 10:29
已采纳
oyljerry
oyljerry   Ds   Rxr 2015.07.21 10:31
获取不同的url,你需要有一个源,比如你可以获取alexa的,它提供了topN的URL地址,你请求页面获取结果来提取URL
CSDNXIAON
CSDNXIAON   2015.07.20 21:09

python 获取url的host
----------------------同志你好,我是CSDN问答机器人小N,奉组织之命为你提供参考答案,编程尚未成功,同志仍需努力!

wangyaninglm
wangyaninglm   Ds   Rxr 2015.07.20 21:16

我就艹了,这机器人跟有些人一样,胡乱回答。。。。

caozhy
caozhy   Ds   Rxr 2015.07.20 22:24

你的问题是什么呢,是不会获取100万url,还是不会写文件?你要打算怎么获取呢?你的程序的用途是什么呢。

wangyaninglm
wangyaninglm 您用过什么可以获取URL的python库么?获取不同的URL这块不知道怎么弄
接近 3 年之前 回复
wangyaninglm
wangyaninglm   Ds   Rxr 2015.07.21 10:27
wangyaninglm
wangyaninglm   Ds   Rxr 2015.07.22 21:55
 import urllib2 


import re 


#connect to a URL 


website = urllib2.urlopen("http://www.baidu.com/s?wd='ll'") 


#read html code 


html = website.read() 


#use re.findall to get all the links 


links = re.findall('"((http|ftp)s?://.*?)"', html) 


print links 

wangyaninglm
wangyaninglm   Ds   Rxr 2015.07.25 01:29

一个阿里的面试题,我做着玩下。
第一个迸发的思路是stl,map。用pair插入时候要是已经存在了url,就给后面的index++,完后按照index排序,测试了一下120m的txt应该有两百万左右,五十秒左右得出结果。
http://blog.csdn.net/wangyaninglm/article/details/47049907

url限制最长256个字符,
大家还有没有更好的思路。

wangyaninglm
wangyaninglm   Ds   Rxr 2015.08.03 08:46

特征提取用的啥算法,这块你先看懂,完了用matlab还是opencv都差不多

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
阿里电话面试问题----100万个URL如何找到出现频率最高的前100个?
这个题是阿里的一个电话面试题,我想的头一个解决方案,有点限制,后面再写优化的 实验数据,python从百度抓得: # -*- coding: utf-8 -*- """ Spyder Editor This is a temporary script file. """ import urllib2 import re import os #connect to a URL
面试练习题-100w个数中找出最大的100个数
附、100w个数中找出最大的100个数。 方案1:在前面的题中,我们已经提到了,用一个含100个元素的最小堆完成。复杂度为O(100w*lg100)。 方案2:采用快速排序的思想,每次分割之后只考虑比轴大的一部分,知道比轴大的一部分在比100多的时候,采用传统排序算法排序,取前100个。复杂度为O(100w*100)。 方案3:采用局部淘汰法。选取前100个元素,并排序,记为序列L。然后一次
对这100万个整数进行排序(每个数是1--100间)
*已知函数sort的参数iArray是一个指向100万个在存储空间上连续的整数的指针,这些数的范围从1到100请写出对这100万个整数进行排序并显示出来的算法函数原型假定为:void sort(int*iArray)   //iArray为指向100万个整数的指针题目来自csdn c板块原地址:http://community.csdn.net/Expert/topic/4473/4473425.
如何使用1M的内存排序100万个8位数
今天看到这篇文章,颇为震撼,感叹算法之“神通”。借助于合适的算法可以完成看似不可能的事情。 最早这个问题是在Stack Overflow网站上面给出的(Sorting numbers in RAM): 题目: 提供一个1M的ROM和1M的RAM,一个输入流和一个输出流。程序代码最终烧录在1M的ROM中,程序可以使用1M的RAM进行运算。输入流中依次输入100万个8位的
假设一个文本文件中保存着100个整数,请将这100个整数按从小到大的顺序写到另一个文件中
假设一个文本文件中保存着100个整数,请将这100个整数按从小到大的顺序写到另个文本文件中去,并且在新文件中每十个整数占一行,源文件名和目标文件名通过命令行参数获取。程序如下: #include void main(int argc, char  **argv) {    FILE *fin,*fout;    int a[10],i,j,temp;    if(argc  
随机生成100万个数,排序后保存在文件中
转自:http://blog.csdn.net/hackbuteer1/article/details/6574908 随机生成100万个数,存储在文件out1.txt中,使用内部排序完成,并重新储存在文件out2.txt中。 (一)使用STL中的qsort函数进行操作: [cpp] view plaincopy #include
面试题-100万个数据前100大的数据
先取出前100个数,维护一个100个数的最小堆,遍历一遍剩余的元素,在此过程中维护堆就可以了。具体步骤如下: step1:取前m个元素(例如m=100),建立一个小顶堆。保持一个小顶堆得性质的步骤,运行时间为O(lgm);建立一个小顶堆运行时间为m*O(lgm)=O(m lgm); step2:顺序读取后续元素,直到结束。每次读取一个元素,如果该元素比堆顶元素小,直接丢弃 如果大于堆顶元素,则用该元
java一亿数字取前100个(3秒钟获取)
java一亿数字取前100个(3秒钟获取) 速度非常快。 发出来给大家分享
如何生成100万个无序不重复随机值
采取的方法如下代码: #include #define NUM 1000000 void swap(int* pa,int* pb) { int temp = 0; temp = *pa; *pa = *pb; *pb = temp; } int main(void) { FILE *fp = NULL; unsigned i = 0,index = 0; int *p =
面试问题整理
先做个记号!!! 平时喜欢哪些php书籍及博客?CSDN、虎嗅、猎云 js闭包是什么? for与foreach哪个更快? php鸟哥是谁?能不能讲一下php执行原理? php加速器有哪些?apc、zend、xcache.....能不能讲一下它的加速原理? Node.js能彻底代替php+apache是扯淡。 怎样判断一个值是否存在于数组中?in_array(),array_key_exist