爬取网页只能读取到“请刷新页面或按键盘F5”

以下是源码

 import urllib
from urllib import request
import re
import random
url = "http://x77558.net/bbs/thread.php?fid=6"

user_agent = [
    "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",

    "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",

    "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0",

    "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; .NET CLR 3.0.30729; .NET CLR 3.5.30729; InfoPath.3; rv:11.0) like Gecko",

    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",

    "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)",

    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)",

    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",

    "Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",

    "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11",

    "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11",

    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",

    "Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",

    "Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",

    "Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",

    "Mozilla/5.0 (Linux; U; Android 2.3.7; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1",

    "MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1",

    "Opera/9.80 (Android 2.3.4; Linux; Opera Mobi/build-1107180945; U; en-GB) Presto/2.8.149 Version/11.10",

    "Mozilla/5.0 (Linux; U; Android 3.0; en-us; Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13",

    "Mozilla/5.0 (BlackBerry; U; BlackBerry 9800; en) AppleWebKit/534.1+ (KHTML, like Gecko) Version/6.0.0.337 Mobile Safari/534.1+",

    "Mozilla/5.0 (hp-tablet; Linux; hpwOS/3.0.0; U; en-US) AppleWebKit/534.6 (KHTML, like Gecko) wOSBrowser/233.70 Safari/534.6 TouchPad/1.0",

    "Mozilla/5.0 (SymbianOS/9.4; Series60/5.0 NokiaN97-1/20.0.019; Profile/MIDP-2.1 Configuration/CLDC-1.1) AppleWebKit/525 (KHTML, like Gecko) BrowserNG/7.1.18124",

    "Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; HTC; Titan)",

    "UCWEB7.0.2.37/28/999",

    "NOKIA5700/ UCWEB7.0.2.37/28/999",

    "Openwave/ UCWEB7.0.2.37/28/999",

    "Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/999",

    # iPhone 6:

    "Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25",
]


# read the url and return a list named page_data
def read_url(url,page_data,headers):
    req = urllib.request.Request(url, headers=headers)
    for i in range(3):
        web_data = urllib.request.urlopen(req).read()
        web_data = web_data.decode("gbk",errors = 'ignore')# the second parament can solver the problem that in 
    # error decode
    page_data.append(str(web_data))
    return page_data


# find taget in the page , used re , an return a list 
def find_tag(tagstr,idx,data,lists):
    lists.append(re.findall(tagstr,data[idx])) 
    return lists

# read the list to download the photo which type is jpg
def download_jpg(lists,path):
    for lis in lists:
        for l in lis:
            print(l)
            name = l.split("/")[-1]
            print(name)
            if ".jpg" or ".png" in l:
                if "js" in l:
                    continue
                elif "http" in l:
                    # sometimes met a missing name 403 , the solve is in the another file named download.py 
                    urllib.request.urlretrieve(l,path+name)
                else:
                    continue

tagstr = '<a title="开放主题" href="(.*?)"'

page_data = []
img_url_list = []
url_lsit = []
img_list = []

while len(page_data)==0 or page_data[-1]=="请刷新页面或按键盘F5":
    headers = {'User-Agent': random.choice(user_agent)}
    read_url(url,page_data,headers)
    print(page_data[-1])

1个回答

建议使用selenium模拟爬取

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
java读取access数据库时,报错[Microsoft][ODBC 驱动程序管理器] 无效的字符串或缓冲区长度
-
怎么用java scanner读取键盘输入 一次读取粘贴进来的多行?
-
pandas关于csv的读取和写入问题
-
数据以树形格式关联 N级树的读取权限问题
-
读取图片的速度跟什么东西有关?
-
如何使用gtk显示ffmpeg读取到的avframe
-
mfc开发中 读取经过des加密的文件时,只能读取一部分加密文件
-
如何在c语言图形环境下实现点击用户密码方框,键盘输入字符串并读取的功能
-
nigix设置internal目录 PHP程序X-Accel-Redirect读取文件 唯独图片不行
-
在tp5中怎样从数据库中读取的导航栏,然后链接到相应的页面?
-
用C#打开默认浏览器并打开指定网页 并对网页进行一些操作
-
utgard在使用异步(Async20Access)读取数据时,总是出错,我的邮箱:sangjingrui@163.com
-
Java Web项目,如何读取非classpath目录下的文件
-
getchar()如何在读到指定数据后停止读取
-
通过php curl得取淘宝单个价格和特征资料
-
从安卓模拟器路径用opencv读取图像失败
-
xml文件读取多一个问号
-
求助:一段程序从桌面的“图片”文件夹读取二进制文件传到已经有的缓冲区handle。?
-
c#mongodb如何从第一个数据开始一直往后读取数据?
-
学会了这些技术,你离BAT大厂不远了
每一个程序员都有一个梦想,梦想着能够进入阿里、腾讯、字节跳动、百度等一线互联网公司,由于身边的环境等原因,不知道 BAT 等一线互联网公司使用哪些技术?或者该如何去学习这些技术?或者我该去哪些获取这些技术资料?没关系,平头哥一站式服务,上面统统不是问题。平头哥整理了 BAT 等一线大厂的必备技能,并且帮你准备了对应的资料。对于整理出来的技术,如果你掌握的不牢固,那就赶快巩固,如果你还没有涉及,现在...
记一道字节跳动的算法面试题
点击蓝色“五分钟学算法”关注我哟加个“星标”,天天中午 12:15,一起学算法作者 | 帅地来源公众号 | 苦逼的码农前几天有个朋友去面试字节跳动,面试官问了他一道链表相...
程序员真是太太太太太有趣了!!!
网络上虽然已经有了很多关于程序员的话题,但大部分人对这个群体还是很陌生。我们在谈论程序员的时候,究竟该聊些什么呢?各位程序员大佬们,请让我听到你们的声音!不管你是前端开发...
史上最详细的IDEA优雅整合Maven+SSM框架(详细思路+附带源码)
网上很多整合SSM博客文章并不能让初探ssm的同学思路完全的清晰,可以试着关掉整合教程,摇两下头骨,哈一大口气,就在万事具备的时候,开整,这个时候你可能思路全无 ~中招了咩~ ,还有一些同学依旧在使用eclipse或者Myeclipse开发,我想对这些朋友说IDEA 的编译速度很快,人生苦短,来不及解释了,直接上手idea吧。这篇文章每一步搭建过程都测试过了,应该不会有什么差错。本文章还有个比较优秀的特点,就是idea的使用,基本上关于idea的操作都算是比较详细的,所以不用太担心不会撸idea!最后,本文
Python爬取淘宝商品信息
各位同学们,好久没写原创技术文章了,最近有些忙,所以进度很慢。 警告:本教程仅用作学习交流,请勿用作商业盈利,违者后果自负!如本文有侵犯任何组织集团公司的隐私或利益,请告知联系猪哥删除!!! 一、淘宝登录复习 前面我们已经介绍过了如何使用requests库登录淘宝,收到了很多同学的反馈和提问,猪哥感到很欣慰,同时对那些没有及时回复的同学说声抱歉! 顺便再提一下这个登录功能,代码是完全没有问题。...
全球最厉害的 14 位程序员!
来源 | ITWorld 整理自网络全球最厉害的 14 位程序员是谁?今天就让我们一起来了解一下吧,排名不分先后。01. Jon Skeet个人名望:程序技术问答网站 S...
从入门到精通,Java学习路线导航
引言 最近也有很多人来向我"请教",他们大都是一些刚入门的新手,还不了解这个行业,也不知道从何学起,开始的时候非常迷茫,实在是每天回复很多人也很麻烦,所以在这里统一作个回复吧。 Java学习路线 当然,这里我只是说Java学习路线,因为自己就是学Java的,对Java理当很熟悉,对于其它方面,我也不是很了解。 基础阶段 首先是基础阶段,在基础阶段,我们必须掌握Java基础,Mysql数据库,Ora...
我花了一夜用数据结构给女朋友写个H5走迷宫游戏
起因 又到深夜了,我按照以往在csdn和公众号写着数据结构!这占用了我大量的时间!我的超越妹妹严重缺乏陪伴而 怨气满满! 而女朋友时常埋怨,认为数据结构这么抽象难懂的东西没啥作用,常会问道:天天写这玩意,有啥作用。而我答道:能干事情多了,比如写个迷宫小游戏啥的! 当我码完字准备睡觉时:写不好别睡觉! 分析 如果用数据结构与算法造出东西来呢? ...
盘点那些被AI换脸、一键“脱”衣所滥用的AI模型
上周作者发布了一篇有关AI换脸的教程,不过令笔者始料未及的是一石激起千层浪,竟然有不少网友留言求所谓一键“脱”衣的教程。 虽然笔者对于技术的滥用深恶痛绝,但技术本身是中性的,并无好坏之分,从我上篇博文中也能看到“AI换脸”的门槛越来越低,目前其应用已经发展到几乎是随便什么人有个教程就能操作的地步了,所以想阻止这些滥用的技术,单靠封杀是不起了什么作用的,所以本文就回归...
五分钟小知识:为什么说 ++i 的效率比 i++ 高?
点击蓝色“五分钟学算法”关注我哟加个“星标”,天天中午 12:15,一起学算法作者 | 守望先生来源 | 编程珠玑前言不知道你是否听说过 ++i 比 i++ 快的说法,真...
接班马云的为何是张勇?
上海人、职业经理人、CFO 背景,集齐马云三大不喜欢的张勇怎么就成了阿里接班人? 作者|王琳 本文经授权转载自燃财经(ID:rancaijing) 9月10日,张勇转正了,他由阿里巴巴董事局候任主席正式成为阿里巴巴董事局主席,这也意味着阿里巴巴将正式开启“逍遥子时代”。 从2015年接任CEO开始,张勇已经将阿里巴巴股价拉升了超过200%。但和马云强大的个人光环比,张勇显得尤其...
什么是大公司病(太形象了)
点击蓝色“五分钟学算法”关注我哟加个“星标”,天天中午 12:15,一起学算法作者 | 南之鱼来源 | 芝麻观点(chinamkt)所谓大企业病,一般都具有机构臃肿、多重...
让程序员崩溃的瞬间(非程序员勿入)
今天给大家带来点快乐,程序员才能看懂。 来源:https://zhuanlan.zhihu.com/p/47066521 1. 公司实习生找 Bug 2.在调试时,将断点设置在错误的位置 3.当我有一个很棒的调试想法时 4.偶然间看到自己多年前写的代码 5.当我第一次启动我的单元测试时 ...
工厂模式,从第三方登录说起
现在的很多平台在登陆的时候,下面都会有一排选项,可以选择微信、QQ、微博账号等登陆,这些账号对平台来说都是第三方账号。第三方账号登陆是最近几年流行起来的,第三方账号登录一般都是基于OAuth2.0协议开发的。如果你不了解OAuth2.0协议,可以自行百度,也许会对你看这篇文章有所帮助。 现在由于公司要给平台引入流量,为了降低注册门槛,让更多的人来使用你们的平台,领导决定在你们的平台上接入第三方账号...
如何在Windows中开启"上帝模式"
原文链接 : https://mp.weixin.qq.com/s?__biz=MzIwMjE1MjMyMw==&amp;mid=2650202982&amp;idx=1&amp;sn=2c6c609ce06db1cee81abf2ba797be1b&amp;chksm=8ee1438ab996ca9c2d0cd0f76426e92faa835beef20ae21b537c0867ec2773be...
什么是“中台”?
“中台”这个概念,越来越多的在各种技术大会上提及,各大技术公司,纷纷推出自己的“中台”方案,究竟什么是“中台”?他和“前台”、“后台”有何区别?《》,这是我的朋友、前同事...
为什么面向对象糟透了?
又是周末,编程语言“三巨头”Java, Lisp 和C语言在Hello World咖啡馆聚会。服务员送来咖啡的同时还带来了一张今天的报纸, 三人寒暄了几句, C语言翻开了...
分享靠写代码赚钱的一些门路
作者 mezod,译者 josephchang10如今,通过自己的代码去赚钱变得越来越简单,不过对很多人来说依然还是很难,因为他们不知道有哪些门路。今天给大家分享一个精彩...
失业42天,我废了
作者:子彧师兄https://www.jianshu.com/p/62590c1339f12019.6.5这天下午,公司以资金困难,亏损较大为理由将我们整个技术部裁掉,我...
技术人员要拿百万年薪,必须要经历这9个段位
很多人都问,技术人员如何成长,每个阶段又是怎样的,如何才能走出当前的迷茫,实现自我的突破。所以我结合我自己10多年的从业经验,总结了技术人员成长的9个段位,希望对大家的职...
顶级产品经理是如何利用王者荣耀,3步毁掉你的自律。
【老王提示】:本文共 2384 字数,预计阅读时间为 8 Minute。 前言 当今时代,王者荣耀可谓无人不知无人不晓,该产品为其行业巨头,而其产品使用者年龄小则十几岁,大则近百岁。 &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 这个现象极为恐怖,甚至有些心酸,本是正处于青春阳光成长中的孩子,应该围绕着学习才对,而不是花费大量时间在娱乐上。不仅是小学生,只要处于...
相关热词 c#该名称在封闭局部范围 c#泛型 排序 c# 测试连接mysql c# 多线程 调用界面值 c# gdi unity c#反射构造带参对象 一起自学c# c#工厂方法 c# 对象属性保存xml u3d用c#写拾取物品

相似问题

1
java读取excel使用jxl,只能读取每个sheet页65536行,怎么解决
4
如何用Java提取一个JSON网页的信息?
1
OpenOPC只能读取OPC服务器初始数据,如何解决?
1
java 中 poi读取需刷新宏的excel单元格
2
戴尔服务器安装centos 只能读取到u盘空间,硬盘空间无法读取
1
spring boot 传值到页面有些值读取不到
2
Java Socket长连接读取数据
1
matlab中如何读取csv文件中的数据,除了直接读取对应的区域,还有别的什么办法来读取这些数据?
3
急需一个可以在网页js调用的可以读取电脑磁盘图片转base64编码数据字符串返回的ocx控件?
1
在tp5中怎样从数据库中读取的导航栏,然后链接到相应的页面?
1
少量系统消息存储到本地,为了方便读取采用什么方式比较好
3
PHP 中 post 数据到地址,地址不存在,跳转到404页面,现在404页面如何读取之前post上来的数据。
1
Jpedal 读取pdf转图片 出现空白页面
2
getchar()如何在读到指定数据后停止读取
1
python如何操作HDFS读取Mapfile 文件
2
sh脚本怎么循环读取文件的每一行,切割并且赋值给不同的变量呢?
1
用while ((ch = getchar()) != EOF) 读取文本,文本中有换行符的情况
1
如何在c语言图形环境下实现点击用户密码方框,键盘输入字符串并读取的功能
3
怎么用java scanner读取键盘输入 一次读取粘贴进来的多行?
1
Android如何读取arcgis服务,及相关配置