2 github 33873969 github_33873969 于 2016.01.28 15:22 提问

小白求助:python爬虫

这是报错
正在下载第1个网页,并将其储存为00001.html....

Traceback (most recent call last):
File "D:\python 学习\百度贴吧的一个小爬虫.py", line 22, in
baidu_tieba(bdurl,begin_page,end_page)
File "D:\python 学习\百度贴吧的一个小爬虫.py", line 9, in baidu_tieba
m=urllib.urlopen(url+str(i)).read()
File "C:\Python27\lib\urllib.py", line 87, in urlopen
return opener.open(url)
File "C:\Python27\lib\urllib.py", line 213, in open
return getattr(self, name)(url)
File "C:\Python27\lib\urllib.py", line 297, in open_http
import httplib
File "D:\python 学习\httplib.py", line 10, in
opener.open('http://rrurl.cn/b1UZuP')
File "C:\Python27\lib\urllib2.py", line 431, in open
response = self._open(req, data)
File "C:\Python27\lib\urllib2.py", line 449, in _open
'_open', req)
File "C:\Python27\lib\urllib2.py", line 409, in _call_chain
result = func(*args)
File "C:\Python27\lib\urllib2.py", line 1227, in http_open
return self.do_open(httplib.HTTPConnection, req)
AttributeError: 'module' object has no attribute 'HTTPConnection'

这是程序
import string,urllib
import ssl
#定义百度函数
def baidu_tieba(url,begin_page,end_page):
for i in range(begin_page,end_page+1):
sName=string.zfill(i,5)+'.html'#自动填充成六位的文件名
print '正在下载第'+str(i)+'个网页,并将其储存为'+sName+'....'
f=open(sName,'w+')
m=urllib.urlopen(url+str(i)).read()
f.write(m)
f.close()
#在这里输入参数~~~~~~~~~~~~
#这是山东大学的百度贴吧中某一个帖子的地址
#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='
#iPostBegin = 1

#iPostEnd = 10

bdurl=str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n'))
begin_page=int(raw_input(u'请输入开始的页数:\n'))
end_page=int(raw_input(u'请输入终点的页数:\n'))
#在这里输入参数
#调用
baidu_tieba(bdurl,begin_page,end_page)

2个回答

oyljerry
oyljerry   Ds   Rxr 2016.01.28 19:43

你调用的HTTPConnection 这个没有找到对应的函数。

coderCold
coderCold   2016.01.28 20:12

我跑了你的程序,没问题

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
静觅小白爬虫及进阶系列学习笔记
小白爬虫第一弹之抓取妹子图遇到问题:python2.x和python3.x有区别。 1. 编码问题,报错ASCII时要在前面加上import sys reload(sys) sys.setdefaultencoding('utf-8'),路径中有中文字符需要把str类型的转为Unicode类型,使用.decode(‘utf-8’) 2. Print问题,python2.x版本的print没有
小白玩转爬虫!(Python)
小白在学习Python基础教程一个月后,决定开始干爬虫。Spider!!! 视频:小蚊子爬虫实战 工具:Pycharm。1、概述 商品评论数据属于不开放数据接口。不开放数据接口是指公开的网站中,可以获取的数据,但是不公开数据接口。!公开: 允许公众访问:例如电商商品价格、介绍、评论等; 限制全站抓取:例如限制session、cookie、header等。2、分析接口案例 目的:抓取《谁说
Python3小白爬虫入门(一)
首先,作为一个python小白,入门爬虫其实也不是很难。要使用python爬虫,首先要知道爬虫能用来做什么,先来一波百度:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。爬虫可以抓取网络上的数据。爬虫可以用很多种编程语言实现,python只是一...
Python小白初次配置兼学习方法指引
好早就想做这个,因为个人在Python群中还是比较活跃的,总是解答些同样小白的问题还是很累的。 以后发个链接让他们自己看好了。也能增加他们的自学能力(强行解释一波) 废话结束,开始正文: 首先说明下学习Python的路径: 基础->进阶->第三方模块的学习->源码->写自己的模块 再强行解释一波,基础是关键,我觉得,就算你已经熟练掌握了基础,你再看三遍四遍也不算多;基础熟练了以后
Python爬虫小白学习心得(一
文字功底差,只为了给自己付出了一段时候的学习做一个总结,让自己能够能Python爬虫的一些功力得以保存。  就我个人而言,觉得有以下几点:   一、必须要有python的基础知识,重点在字符串(string)、列表的迭代(iteration)和切片(slice),字典类型,For循环。   二、了解熟悉HTML基础知识。这样就知道了父标签、子标签、兄弟标签等,对于快速定位甚是有用。   三
一个Python小白5个小时爬虫经历
前言   最近业余在做一个基于.NET Core的搜索项目,奈何基层代码写好了,没有看起来很华丽的数据供测试。很巧的也是博客搜索,于是乎想到了博客园。C#也能做做页面数据抓取的,不过在博客园看到的大部分都是python实现,所以就临时想了一下看看python到底是什么东东,不看基础语法,不看语言功能,直接上代码,哪里不会搜哪里。代码完成总共用时大概4个小时,其中搭建环境加安装BeautifulS
Python爬虫(入门+进阶)学习笔记 3-2 爬虫工程师进阶(八):去重与入库
数据去重又称重复数据删除,是指在一个数字文件集合中,找出重复的数据并将其删除,只保存唯一的数据单元。数据去重可以有效避免资源的浪费,所以数据去重至关重要。数据去重数据去重可以从两个节点入手:一个是URL去重。即直接筛选掉重复的URL;另一个是数据库去重。即利用数据库的一些特性筛选重复的数据。 def process_spider_output(self, response, result, spi...
04—小白学Python爬虫之正则入门及使用
正则表达式简介 前言 简而言之,爬虫分为四步: 明确目标(爬取网站) 爬取页面 按照规则提取有用数据 存储和使用数据 在前面的示例中,我们仅仅做了第一 二步,并且对所爬取的页面内容完整保存,没有对数据进行提取和处理,这样容易造成数据混乱且庞大,因此,我们需要按照规则对内容进行匹配和过滤,得到有效数据。 对文本进行过滤和匹配,最强大的就是正则,是爬虫(不限python)世界里不可缺...
小白爬虫
前计 最近在完成老师布置的任务看了许多关于Python的知识,但是因为研究的是图像识别的知识,这个任务对于我这个不是数学专业的本科生,有点略显吃力,但是也在硬着头皮去努力的学习。期间学习了Python的语法知识,然后再休息的时候就去做了一个爬虫。深刻感受到了Python的神奇与强大啊。 正题 好了废话不多说了,现在就开始我们的正题· 首先看一下, 我们要爬去的网站吧。一个关于小说的网站...
小白爬虫第一弹之抓取妹子图
点击上方“程序员大咖”,选择“置顶公众号”关键时刻,第一时间送达!这是一篇完全给新手写的爬虫教程由于经常在群里装逼加上群主懒啊(你看有多久没更新文章就知道了),让我来一篇爬虫的教程。如此装逼机会怎么能错过,今天我来给大家来一篇基础爬虫教程。你要问目标是啥? 要知道XX才是学习最大的动力啊!所以目标就是   mzitu.com (废话真多还不开始) , 下面请各位跟我的教程一步一步走,喂!!说的就是