在学python爬虫时遇到个问题,求解答
 #! /usr/bin/env python
# -*- coding: utf-8 -*-

import urllib
import urllib2
import re

def craw(url, page):
    html1 = urllib2.Request(url)
    response = urllib2.urlopen(html1).read()
    response = str(response)
    pat1 = '<img width="220" height="220" class="err-product" data-img="1" src="//.+?" />'
    imagelist = re.compile(pat1).findall(response)
    x = 1
    for imageurl in imagelist:
                imagename = "D:/手表/" + str(page) + str(x) + ".jpg"
                imagesurl = "http://" + imageurl
                try:
                    urllib.urlretrieve(imagesurl, filename = imagename)
                except urllib2.URLError as e:
                       if hasattr(e, "code"):
                           x += 1
                       if hasattr(e, "reason"):
                           x += 1
                x += 1

for i in range(2,6):
    url = "https://search.jd.com/Search?keyword=手表%20男&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&suggest=1.def.0.V16&wq=手表&page=" + str(i)
    craw(url, i)

运行,开始报错:
Traceback (most recent call last):
  File "C:/Users/JIE/Desktop/py file/����ѵ��.py", line 30, in <module>
    craw(url, i)
  File "C:/Users/JIE/Desktop/py file/����ѵ��.py", line 20, in craw
    urllib.urlretrieve(imagesurl, filename = imagename)
  File "C:\Python27\lib\urllib.py", line 91, in urlretrieve
    return _urlopener.retrieve(url, filename, reporthook, data)
  File "C:\Python27\lib\urllib.py", line 237, in retrieve
    fp = self.open(url, data)
  File "C:\Python27\lib\urllib.py", line 205, in open
    return getattr(self, name)(url)
  File "C:\Python27\lib\urllib.py", line 342, in open_http
    h.endheaders(data)
  File "C:\Python27\lib\httplib.py", line 951, in endheaders
    self._send_output(message_body)
  File "C:\Python27\lib\httplib.py", line 811, in _send_output
    self.send(msg)
  File "C:\Python27\lib\httplib.py", line 773, in send
    self.connect()
  File "C:\Python27\lib\httplib.py", line 754, in connect
    self.timeout, self.source_address)
  File "C:\Python27\lib\socket.py", line 553, in create_connection
    for res in getaddrinfo(host, port, 0, SOCK_STREAM):
IOError: [Errno socket error] [Errno 11001] getaddrinfo failed

-5

9个回答

import urllib
import urllib2
import re

def craw(url, page):
html1 = urllib2.Request(url)
response = urllib2.urlopen(html1).read()
response = str(response)
pat1 = '"//.+?" />'
imagelist = re.compile(pat1).findall(response)
x = 1
print(imagelist)
for imageurl in imagelist:
imagename = str(page) + str(x) + ".jpg"
imagesurl = "http://" + imageurl[3:-4]
print(imagesurl)
try:
urllib.urlretrieve(imagesurl, filename = imagename)
except urllib2.URLError as e:
if hasattr(e, "code"):
x += 1
if hasattr(e, "reason"):
x += 1

            x += 1

for i in range(2,6):
url = "https://search.jd.com/Search?keyword=手表%20男&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&suggest=1.def.0.V16&wq=手表&page=" + str(i)
craw(url, i)

正则不对,匹配后的内容和http://拼接后不是正确的url,所以打不开,碰到这些问题逐步print出来就能找到哪里错了

-2
Ericjohnn
Ericjohnn 谢谢你啊,已经解决了
一年多之前 回复
Ericjohnn
Ericjohnn 的确是我正则表达式写错了,但是像你这样改的话,爬出来的东西就不仅仅是手表了
一年多之前 回复

地址和端口号,估计你的地址有问题

1

先打印一下imagesurl,估计它的地址有问题。或者你的网络不能访问这个URL

0
0

1、你提取图片网址的正则表达式有问题,你得到的列表应该img标签的列表,而不是网址的列表,应该修改为:pat1 = '',加一个group分组
2、中文目录需要处理一下:imagename=unicode(imagename)
3、小问题,你的编码设置好像有点问题

0
timezhourenquan
timezhourenquan pat1 = '<img width="220" height="220" class="err-product" data-img="1" src="(//.+?)" />'他自动转为网址了
一年多之前 回复

网络可能不可以访问这个URL

0

1、你提取图片网址的正则表达式有问题,你得到的列表应该img标签的列表,而不是网址的列表,应该修改为:pat1 = \'\',加一个group分组,我测试应该是可以的
2、中文目录需要处理一下:imagename=unicode(imagename)
3、小问题,你的编码设置好像有点问题

0

首先, python2里面中文字符串要带u开头, 你url就没弄好
其次, 为什么不用requests库, 原生的urllib 默认不带自动urlencode功能,中文可能没encode成百分号那种编码

-1

本人刚学python 的爬虫,就去爬京东的手表图片练手,然后一直报错,代码,错误都在上面了,求解决呀

-2
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
python爬虫遇到的问题
最重要的是错误查看 查看端口状态命令:netstat -apn 用于查看mysql的端口是否开启的是3306 发现mysql的连接状态如图 可以看到本地端口是127.0.0.1:3306 需要修改mysql的bind-address:找到/etc/mysql/mysql.conf.d/mysqld.cnf这个文件中,有一行是 需要改为0.0.0.0 即接收任何ip的连接 并且...
python爬虫——安装mongodb时遇到的问题
操作系统:MacOS之前装过homebrew(注1)。打开terminal,输入“brew”,报错如下:“Error:Failure while executing: git config --local --replace-all homebrew.private true”。依次尝试了以下步骤: brew update:更新brew doctor: 诊断brew gist-logs &amp;lt;f...
初学线程遇到个问题,求解答。。
一直在看马士兵的java视频教程,今天学到线程这一章,跟着编了个程序。rn注释符号以后的是他的定义方法,我自己用了另一种方法,rnThread t1 = new Thread(new TestSync1());rn最后输出的结果:rnt1你是第2个rn t2你是第2个rn我感觉我的这个定义方法应该是相当于rnTestSync1 test1 = new TestSync1();rnTestSync1 test2 = new TestSync1();rnThread t1 = new Thread(test1);rnThread t2 = new Thread(test2);rn不知道这样为什么会输出错误,希望有大神来解答。。rnpublic class TestSync1 implements Runnablern Time timer = new Time();rn public static void main(String args[])rn // TestSync1 test = new TestSync1();rn // Thread t1 = new Thread(test);rn // Thread t2 = new Thread(test);rn rn Thread t1 = new Thread(new TestSync1());rn Thread t2 = new Thread(new TestSync1());rn t1.setName("t1");rn t2.setName("t2");rn t1.start();rn t2.start();rn rn rn public void run()rn timer.add(Thread.currentThread().getName());rn rn rn rn class Timern private static int num = 0;rn public synchronized void add(String name)rn rn num++;rn tryrn Thread.sleep(1);rn catch(InterruptedException e) rn System.out.println(name+"你是第"+num+"个");rn rn rn rn
新手做留言板时遇到个问题,求高手解答
成功接受参数:strContent:".$strContent;rn###############################rn//保存至数据库rn###############################rn//定义执行语句rn$sql = "INSERT INTO 'db_message'.'t_message' ('intMessageID','strContent') VALUES(NULL,'".$strContent."');";rnecho " ".$sql;rn//连接数据库rn$connect = mysql_connect("localhost","root","root") or die("连接失败");rn//执行数据库操作,写入数据库rn$query = mysql_db_query("db_message",$sql,$connect) or die(" !!!!");rnecho " 成功保存至数据库";rn?>rn就是这个rn总是输出!!!!rn不知道怎么回事rn求高手解答
遇到个问题,望解答
网站原本是HTTP,改为https后 一部分用户[color=#FF0000]偶尔[/color]上传不上图片,上传不上时ajax直接跳到error方法,在周围试都很正常,找不到有问题的电脑,不知是何原因,[color=#FF0000]是需要跨域吗[/color] ?rn
python 爬虫 pyspider遇到的问题
pyspider on_start函数中 n如果url改变,写个循环判断之类的会自动在左面生成所有分页路径,但我这个是ajax请求,url不变,只是参数中的分页参数在变,我该如何写才能让左面生成分页请求
linux 下python爬虫遇到的问题
1.系统centos7 2.同时安装了python2和python3. 3.使用的Pycharm 用virtualenv创建了python3,进行爬虫的尝试。但是遇到了不存在类似No module named 'bs4’的错误 解决No module named bs4 https://www.cnblogs.com/xisheng/p/7856334.html 解决pycharm问题:modul...
python爬虫工作遇到的问题
1,redis 的强制关闭导致磁盘不可写入,,flush
在学ajax遇到的问题
在网上看了一个ajax的例子,照着写了怎么没有反应?rnDefault.aspx中得代码rn rnrnrn rn rn rn rn rn rn rn rnrnrnrnrna.ashx中得代码rn<%@ WebHandler Language="C#" Class="a" %>rnrnusing System;rnusing System.Web;rnrnpublic class a : IHttpHandler rn rn public void ProcessRequest (HttpContext context) rn context.Response.ContentType = "text/plain";rn //context.Response.Write("Hello World");rn rn rn public bool IsReusable rn get rn return false;rn rn rnrnrn public string Execute(HttpContext context)rn rn string str=context.Request.QueryString["key"];rn return str + "hello";rn rn rn
python爬虫遇到的坑
一.     UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8a in position 9509: i错误是应为被压缩了
爬虫时遇到的错误
根据微博关键字爬取微博内容的时候,url需要注意 这样可以 url = &amp;quot;https://m.weibo.cn/api/container/getIndex?containerid=100103type%3D1%26q%3D{}&amp;amp;amp;page_type=searchall&amp;amp;amp;page={}&amp;quot; #keyword是关键字,page是页数 response = requests.get(url...
WEB开发遇到的问题,求解答~
问题是这样的,我的页面头部有个省市区切换,切换完点导航上的连接打开的新页面的省市区还是初始化时的,不是我切换过的~求解决办法,头部这块我使用 进来的,iframe的我们现在改不了整个项目都是包含进来的
python入门爬虫时的问题
在爬取csdn论坛页面时,发现有些节点 取不到:rnrnrnrn![图片说明](https://img-ask.csdn.net/upload/201904/17/1555457711_362059.jpg)rnrn这就是我想要获取的节点,这一列li标签rnrnrn当我想用children便利div子节点时,发现什么也没有:rn![图片说明](https://img-ask.csdn.net/upload/201904/17/1555457783_387202.jpg)rnrnrnrn然后我尝试去获取其中一个节点,也发现没有:rn![图片说明](https://img-ask.csdn.net/upload/201904/17/1555457807_21428.jpg)rnrnrn这是为什么呢
在学ajax时的问题
我用的是vs2008rn下了一个例子来看,发现用ajax要声明rn[AjaxPro.AjaxNamespace("xkziBook")]rn[AjaxPro.AjaxMethod]rn然后也使用Javascriptrn但我在看一些新手示例时用scriptmanage和updatepanelrn这两种方法的区别是...好处是...想知道一个详细的答案...rn请各位大虾赐教,小弟虚心受教
遇到的面试题,求解答
题如下:求输出结果是什么(附带解答)?rnrnrnpublic class A rn int a=1;rn String b="java";rn public A() rn System.out.println("a="+a+",b="+b);rn rn public static void main(String[] args) rn A a=new B();rn System.out.println("-------------------------");rn B b=new B();rn rnrnclass B extends Arn float a=2;rn String b="php";rn public B()rn System.out.println("a="+a+",b="+b);rn rnrn
Python,写爬虫时遇到的问题笔记(一)
python3 错误 Err
python爬虫学习day2-2.遇到js时发生的问题
学习视频链接:点击打开链接笔记部分:爬到评论数却无法获取到评论数量时,提出猜测是经过js增添上去,所以需要在页面中检查找出提供js的network js链接地址(即提供js的公网http://链接)取参考:然后代码取出相关内容:-------------------分割线---------------------------------取出链接中指定位置的值#取出链接中指定位置的值 newsurl...
遇到个蹊跷问题!求真正高手解答!
   XP系统笔记本上储存的一些照片在符合淘宝及各大论坛上传格式及文件大小各方面要求的情况下  无法上传!  (注明:不能上传的这些照片都是一年前能够正常上传淘宝及各大论坛的原始照  片!为什么同样的一张照片以前可以正常上传而现在确不行!)rn    rn    试了下把一年前上传到论坛的照片重新复制保存到电脑上再上传就行!应该排除是系统问   题!但电脑里保存的原始文件确不能上传!怀疑是病毒原因,但正版卡巴又查不出毒!rnrn    请求高手能够解答这个蹊跷问题!!!谢谢!
遇到个CSS很奇怪的问题,求解答!
有个朋友写了和我一模一样的代码,结果他的border显示是有小数点的,而我的显示的是整数,我们用的都是同一个浏览器,这是什么原因呀?[img=https://img-bbs.csdn.net/upload/201608/19/1471614662_259122.png][/img][img=https://img-bbs.csdn.net/upload/201608/19/1471614669_152943.png][/img][img=https://img-bbs.csdn.net/upload/201608/19/1471614686_274567.png][/img]
python爬虫时报错
我用的是Python3.66版本,最近写了一段爬虫代码,在DEBUFG模式运行时没有报错, 但是普通模式运行时就报下面这个错误:_wrap_socket() argument 1 must be _socket.socket, not SSLSocket ...
python 小白问题 求解答~
a=[2,3,1,5,2,1,4,1,21,......]rn列表数值很多,我想生成新的列表b,b中的每个值为a列表中相对应位置的前20个数相加之和,请问如何用python编程~~~万分感谢
python问题 求大神解答
# 我是个小白/ 这里有个问题不太懂 求解n## 代码送上nn```n #encoding:utf-8n#!/user/bin/pythonnnimport urllib.requestnimport citynimport timenimport jsonnimport tkinter as tknimport win32apinnclass Application(tk.Frame):n def __init__(self, master=None):n super().__init__(master)n self.pack()n self.create_widgets()nnn def create_widgets(self):n self.lable1=tk.Label()n self.lable1.pack(side="top")n self.lable1["text"]="请输入一个城市 \n 例如:东莞/北京/上海……"nn self.CityInputTEXT=tk.Text()n self.CityInputTEXT.pack(side='bottom')nnn self.button1=tk.Button()n self.button1.pack(side="bottom")n self.button1['text']="查询"n if self.button1['command'] :n return self.CityInputTEXT["text"]nnnnn def chaxun(CTname):n cityname=city.city.get(CTname)nn if cityname:n url = "http://www.weather.com.cn/data/cityinfo/%s.html" % citynamen content = urllib.request.urlopen(url).read().decode("utf-8")n data = json.loads(content)n result = data['weatherinfo']n Weather = json.loads(content)n cityZIDIAN = Weather["weatherinfo"]n cityInformation = ("%s\n%s\n%s ~ %s") % (cityZIDIAN['city'], cityZIDIAN['weather'],result['temp1'],result['temp2'])n return cityInformationn else:n win32api.MessageBox(0, "There are no this City\n\a没有該城市!", "今天天气")nnnnnroot = tk.Tk()nnapp=Application(root)nnnnnnnapp.mainloop()nn```nn![图片说明](https://img-ask.csdn.net/upload/201706/25/1498378003_143558.png)n运行后是这样的nnn我想要 使用查询功能nn**在app.mainloop()上面加了一句**nnn```n win32api.MessageBox(0,app.chaxun(app.create_widgets()),"")n```nnn结果就运行错误 如图n![图片说明](https://img-ask.csdn.net/upload/201706/25/1498377853_618031.png)nnnnn**希望大神能快点解答n小弟在此谢过**
python webdrive的问题,求解答
要爬取一个网站的数据,想要实现翻页功能,但是特殊之处在于翻页网站并不会变化,通过查找元素找到了下一页的源码如下:rn[img=https://img-bbs.csdn.net/upload/201706/23/1498183386_361220.png][/img]rn我想通过click()实现翻页: driver.find_element_by_class_name("next turn_page").click(),但是报错[img=https://img-bbs.csdn.net/upload/201706/23/1498183485_312638.png][/img],应该是定位失败。在网上查了好久了,一直没找到解决方法,本来以为是内嵌网页的问题,结果不是,求大神解答!不胜感激!
python字典问题,求解答
问题:字典中嵌套子字典,各个子字典相同,改变其中一个子字典的值,其它子字典对应值也变了rnrn代码:rn[img=https://img-bbs.csdn.net/upload/201709/26/1506404486_430906.png][/img]rn结果:rn[img=https://img-bbs.csdn.net/upload/201709/26/1506404496_400544.png][/img]
一个很简单的爬虫问题,求大神解答
import requests as resrnfrom bs4 import BeautifulSoup as bsrndef body_function(url):rn resp = res.get(url)rn tex = resp.textrn soup = bs(tex,'lxml')rn status = resp.status_codern if status == 200:rn return souprndef price_infor(html):rn goods_jiage = html.find_all(class_='product-price')rn for result_gj in goods_jiage:rn ru1_1 = result_gj.find_all(class_='price-num')#获取卷后价格rn for ru1 in ru1_1:rn rus1 = ru1.get_text()rn return rus1#用return返回结果时,无法返回所有结果,我知道print可以,但是无法拼接其他函数的返回结果rndef baochou_infor(html):rn goods_quan_info = html.find_all(class_='quan-infro')rn for result_gqi in goods_quan_info:#获取佣金价格rn ru2 = result_gqi.select('em')rn ru2_1 = result_gqi.find('a')rn rus2 = ru2_1['href']rn n1 = list(ru2[0])rn n2 = list(ru2[1])rn ns = n1+n2rn #print ('优惠卷:'+ns[0]+'元'+' 返现比例:'+ns[1]+'%'+' 优惠券链接:'+rus2)rndef main():rn headers = rn 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) 'rn 'Chrome/64.0.3282.186 Safari/537.36'rn key = input("please input the keywords:")rn page_num = int(input("input the pagenumber:"))rn for pg in range(page_num):rn url = 'http://www.taokezhushou.com/search?q='+key+'&page='+str(pg+1)rn html = body_function(url)rn a1 = price_infor(html)rn print(a1)rn #a2 = baochou_infor(html)rnif __name__ == '__main__':rn main()rnrn用return返回结果,然后调取函数的时候得出全部的结果,我知道用print可以,用print输出结果会导致结果没办法和其他结果拼接在一起,就大神解答rn爬取的网站是 http://www.taokezhushou.com
求python大神指点--python爬虫问题
问题描述起来很简单:目前只知道一个域名如www.aaaa.com,该域名上部署了一个网站,如何能将该域名下所有的页面都爬出来,不知道能不能实现
遇到个问题,求帮助
[code=c] rn if(OraQry_TypeItems->RecordCount>0)rn rn AnsiString mTypeId=OraQry_TypeItems->Fields->Fields[0]->AsString;rn //ChargeDM->OraSP_IfCusTypeUsed->Close();rn ChargeDM->OraSP_IfCusTypeUsed->Prepare();rn ChargeDM->OraSP_IfCusTypeUsed->Params->Clear();rn ChargeDM->OraSP_IfCusTypeUsed->Params->CreateParam(ftString,"type_id",ptInput);rn ChargeDM->OraSP_IfCusTypeUsed->Params->CreateParam(ftInteger,"li_retu",ptOutput);rn ChargeDM->OraSP_IfCusTypeUsed->ParamByName("type_id")->AsString = mTypeId;rn tryrn rn ChargeDM->OraSP_IfCusTypeUsed->ExecProc();rn li_retcode=ChargeDM->OraSP_IfCusTypeUsed->ParamByName("li_retu")->AsInteger;rn rn catch(EDatabaseError &e)rn rn //ChargeDM->OraSP_IfCusTypeUsed->Close();rn ChargeDM->OraSP_IfCusTypeUsed->UnPrepare();rn Application->MessageBox("数据库操作错误","提示信息",MB_OK);rn return ;rn rnrn //ChargeDM->OraSP_IfCusTypeUsed->Close();rn ChargeDM->OraSP_IfCusTypeUsed->UnPrepare();rn if(li_retcode==1)rn rn Application->MessageBox("该读者类型在读者表中被引用,不能删除!","提示信息",MB_OK);rn return ;rn rn //删除数据rn OraQry_TypeItems->Delete();rn tryrn rn OraQry_TypeItems->ApplyUpdates();rn rn catch(...)rn rn Application->MessageBox("更新数据库失败,请重试!","提示",MB_OK);rn return;rn rn OraQry_TypeItems->CommitUpdates();rn iRecCount = OraQry_TypeItems->RecordCount;rn rn[/code]rn以上这段代码,是连接Oracle Unicode的。如果去掉调用存储过程那部分,删除是没问题的,如果加上调用存储过程那部分,到rnOraQry_TypeItems->ApplyUpdates();rn这句时,就报错了。rn谁遇到过?
遇到个小问题 进来解答下
if(qkl.qbutton.setVisible(true))rnqkl.qbutton.setVisible(false);rnrn+++++++++++++++++++++++++++=rnqkl01.java:44: 不兼容的类型rn找到: voidrn需要: booleanrn if(qkl.qbutton.setVisible(false))rn+++++++++++++++++++++++++++=rnrn类型好象不对,不知道怎么改rnrn是不是哪个返回了boolean值,请求改改下 应该不会很简单的!rnif(qkl.qbutton[i].setVisible(true)==1)吗?好象不行rn
python爬虫遇到403错误
这段时间我很想去p站爬一爬,之前有试过,但都失败了,有一次用phantomJS尝试,结果卡死在登录页面,太复杂了。有一次卡死在编码上,一直无法获取到页面。这次是卡死在403上,我获取了图片的链接,正要下载时弹出403错误,图片在浏览器上也打不开,我还以为是网站把我的ip封掉了,就放弃了,后来听一位大神说,有的时候需要向网页发送一些请求头吃才能下载东西(我是第一次听说urllib.request.u...
自学Python爬虫遇到的一些问题
1.Python中三引号的问题(""")    起到换行的作用
初学者遇到个问题,期待大神解答
我写了一个文件上传的小东西,用的是socket,客户端这边我用printWriter写出一些要上传的文件信息,之后要传文件时,用OutputStream直接写的字节流出去。服务一端,我先用bufferedReader读取上传上来的文件信息,之后用InputStream 直接读取字节流信息。rnrn但是我遇到问题了,用printWriter写字符信息出去时,服务器接收的到。可是一用字节流就收不到数据了,要关闭上传文件的socket 服务端就显示-1信息读完了,要是不关闭,服务器就等着。我实在想不通,希望有大神帮我解答,我明天今天白天下午回帖,谢谢!!
学习python时遇到的问题
本人新手一枚,在学习python时遇到的问题如下:rn在-5~256之间的整形,python不会给变量初始化新的内存空间,但是一旦超出256,则会分配新的空间。rn但是我输入1000时在我的命令行语句中输出a is b是false,但是在pycharm中a is b输出的确实true,希望有大佬可以解释一下[img=https://forum.csdn.net/PointForum/ui/scripts/csdn/Plugin/001/face/3.gif][/img]rn[img=https://img-bbs.csdn.net/upload/201810/30/1540869444_805303.png][/img]rn[img=https://img-bbs.csdn.net/upload/201810/30/1540869450_741437.png][/img]rn
写python时遇到的问题
1.发现os.listdir()获取的文件目录底下的名字是乱序的。。。。一个大坑。。 解决方法: 假设我的文件名字是1.xls,2.xls,3.xls…..这种的 那么使用fileList.sort(key= lambda x:int(x[:-4]))就可以对os,listdir()得到的文件文字进行分类。 2.有两个list,如何转换成字典的形式 list1 = [&amp;amp;amp;amp;amp;amp;amp;amp;quot;1&amp;amp;amp;amp
运行python爬虫代码中遇到的问题~
可以算是一次小尝试~ 遇到的问题有:       from bs4 import BeautifulSoup ModuleNotFoundError: No module named 'bs4'   bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you...
Python 爬虫中遇到的反爬虫问题
源网站一般会有下面几种限制 1、一定时间内单个IP访问次数,一个正常用户访问网站,除非是随意的点着玩,否则不会在一段持续时间内过快访问一个网站,持续时间也不会太长,我们可以采用大量不规则代理ip形成一个线程池,随机从代理池中选择代理,模拟访问。代理有两种,透明代理和匿名代理。2、一定时间内单个账号访问次数,如果一个人一天24小时都在访问一个数据接口,而且速度非常快,那就有可能是机器人。我们可以采用
Python爬虫学习中遇到的问题
请教一个问题,爬虫链接是一个下载地址,在浏览器中进入之后会自动弹回点击下载地址的页面,下载的是一个表格,但是在写的爬虫中,当我访问这个下载链接时,会出现报错:urllib2.URLError: &amp;lt;urlopen error no host given&amp;gt;,主机未回应,请问这该怎么做才能把表格下载下来?相关链接:1. http://www.moe.gov.cn/srcsite/A03/mo...
使用python进行爬虫遇到的问题
使用python爬虫遇到的问题 目标网页登陆时需要提交一个表单,表单其中一个数据在网页的源码中存放,每访问一次该网页这个checkcode随之改变,我之前想的是使用requests模块,先get一次然后正则获取这个checkcode,再post,但是post和get就是是两次访问了,当我post这个表单的时候checkcode就已经不是原先的那个了,最后还是登陆不上。求大佬帮忙解答一下 ) ...
python爬虫中使用xpath遇到的问题
最近在练习Python的时候,使用XPath来爬取网页上的内容,感觉要比使用正则匹配要更灵活和简洁一些。但是今天遇到了一个问题,找了半天资料也没找到解决方法,自己对照xpath的语法,也没错误。但就是结果不对。论坛上的各位大神可否帮忙指点一二:[code=python]rn#coding:utf-8rnrnimport urllibrnimport urllib2rnfrom lxml import etree as etreernrnif __name__ == "__main__":rn #此段代码的目的是为了爬取下边网页上的“更新时间”rn req_url = 'http://www.mumayi.com/android-81548.html'rn try:rn headers = 'User-Agent':'"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:26.0) Gecko/20100101 Firefox/26.0"'rn req = urllib2.Request(req_url, headers = headers)rn content = urllib2.urlopen(req, timeout=60).read()rn if isinstance(content, unicode):rn passrn else:rn content = content.decode('utf-8')rn #print contentrn htmlSource = etree.HTML(content)rn rn names = htmlSource.find('.//ul[@class="istyle fl"]//li[4]') #问题出在节点“li”的序列号[4]上,只要加上li[4],结果就是Nonern print names.text, type(names)rn[/code]
记录一次简单python爬虫遇到的问题
1. python版本问题。   当系统有多个python版本的时候,可以用anaconda来管理。如果是自己随便安装的,还要留意python的解释器用的是哪个版本,pip下载依赖是在哪个目录下,pip下载可以指定目录的。 2. 爬虫ip被封。      这次我用了两种思路。一个是更换代理,就是指定header, 使用fake_useragent包的UserAgent来随机使用header。...
在Python爬虫中遇到的NoneType的问题
在Python爬虫中遇到的NoneType的问题 1.问题 目的:爬取天猫上手机的名字和价格 代码如下 #天猫商品比价定向爬取 import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r = requests.get(url) r.raise_f...
相关热词 c#串口测试应用程序 c# 匹配 正则表达式 c#防止窗体重绘 c#读写txt文件 c#挖地雷源代码 c#弹框选项 c# 移除 队列 c# 密码写入配置文件 c# 获取可用内存大小 c# 嵌入excel编辑