爬取网页只能读取到“请刷新页面或按键盘F5”

以下是源码

 import urllib
from urllib import request
import re
import random
url = "http://x77558.net/bbs/thread.php?fid=6"

user_agent = [
    "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",

    "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",

    "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0",

    "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; .NET CLR 3.0.30729; .NET CLR 3.5.30729; InfoPath.3; rv:11.0) like Gecko",

    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",

    "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)",

    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)",

    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",

    "Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",

    "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11",

    "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11",

    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",

    "Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",

    "Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",

    "Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",

    "Mozilla/5.0 (Linux; U; Android 2.3.7; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1",

    "MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1",

    "Opera/9.80 (Android 2.3.4; Linux; Opera Mobi/build-1107180945; U; en-GB) Presto/2.8.149 Version/11.10",

    "Mozilla/5.0 (Linux; U; Android 3.0; en-us; Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13",

    "Mozilla/5.0 (BlackBerry; U; BlackBerry 9800; en) AppleWebKit/534.1+ (KHTML, like Gecko) Version/6.0.0.337 Mobile Safari/534.1+",

    "Mozilla/5.0 (hp-tablet; Linux; hpwOS/3.0.0; U; en-US) AppleWebKit/534.6 (KHTML, like Gecko) wOSBrowser/233.70 Safari/534.6 TouchPad/1.0",

    "Mozilla/5.0 (SymbianOS/9.4; Series60/5.0 NokiaN97-1/20.0.019; Profile/MIDP-2.1 Configuration/CLDC-1.1) AppleWebKit/525 (KHTML, like Gecko) BrowserNG/7.1.18124",

    "Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; HTC; Titan)",

    "UCWEB7.0.2.37/28/999",

    "NOKIA5700/ UCWEB7.0.2.37/28/999",

    "Openwave/ UCWEB7.0.2.37/28/999",

    "Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/999",

    # iPhone 6：

    "Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25",
]


# read the url and return a list named page_data
def read_url(url,page_data,headers):
    req = urllib.request.Request(url, headers=headers)
    for i in range(3):
        web_data = urllib.request.urlopen(req).read()
        web_data = web_data.decode("gbk",errors = 'ignore')# the second parament can solver the problem that in 
    # error decode
    page_data.append(str(web_data))
    return page_data


# find taget in the page , used re , an return a list 
def find_tag(tagstr,idx,data,lists):
    lists.append(re.findall(tagstr,data[idx])) 
    return lists

# read the list to download the photo which type is jpg
def download_jpg(lists,path):
    for lis in lists:
        for l in lis:
            print(l)
            name = l.split("/")[-1]
            print(name)
            if ".jpg" or ".png" in l:
                if "js" in l:
                    continue
                elif "http" in l:
                    # sometimes met a missing name 403 , the solve is in the another file named download.py 
                    urllib.request.urlretrieve(l,path+name)
                else:
                    continue

tagstr = '<a title="开放主题" href="(.*?)"'

page_data = []
img_url_list = []
url_lsit = []
img_list = []

while len(page_data)==0 or page_data[-1]=="请刷新页面或按键盘F5":
    headers = {'User-Agent': random.choice(user_agent)}
    read_url(url,page_data,headers)
    print(page_data[-1])

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
lyhsdy 2018-10-24 02:08
关注
建议使用selenium模拟爬取

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬取网页network_Python爬虫经常爬不到数据，或许你可以看一下小编的这篇文章...
2020-12-03 06:53

weixin_39747075的博客 1.最简单的Python爬虫最简单的Python爬虫莫过于直接使用urllib.request.urlopen(url=某网站)或者requests.get(url=某网站)例如：爬取漫客栈里面的漫画文章链接：运用Python爬虫下载漫客栈里面的漫画代码和运行结果：...
进阶网络爬虫实践内容---微博网页内容爬取
2023-12-15 09:31

楠笙屿海的博客实战内容：访问微博热搜榜，获取微博热搜榜前50条热搜名称、链接及其实时热度，并将获取到的数据通过邮件的形式，每20秒发送到个人邮箱中。
Python爬虫（一文通）
2024-08-29 21:24

frimiku的博客一：静态页面爬取 Requests库的使用 1）基本概念+安装+基本代码格式应用领域：适合处理**静态页面数据和简单的 HTTP 请求响应**。 Requests库的讲解含义：requests 库是 Python 中一个非常简单且强大的库，...
Python爬虫项目分享一：《爬取周杰伦的歌曲清单》
2019-10-12 09:49

ff876409866的博客 python爬取周杰伦的歌曲清单偶得一不错的爬虫教程，现博客分享，想要获取完整教程，加V：ff17328081445。文章为系列文章，持续更新，欢迎关注。浏览器分析网页 #打开网址（首页搜索周杰伦） ...
【爬虫入门】爬取音乐排行榜
2023-07-25 18:06

Zaly.的博客从以上的两个获取歌手名的方式我们了解到了findAll函数可以获取到对应的标签，而get函数可以进一步获取到标签内的特定信息。通过我们对html数据的观察可以发现，一首歌如果有多个歌手，那么这几个歌手将会被保存在同...
使用webdriver+urllib爬取网页数据(模拟登陆，过验证码)
2018-05-27 15:26

weixin_30698297的博客 urilib是python的标准库，当我们使用Python爬取网页数据时，往往用的是urllib模块，通过调用urllib模块的urlopen(url)方法返回网页对象，并使用read()方法获得url的html内容，然后使用BeautifulSoup抓取某个标签内容...
爬取医药卫生知识服务系统的药品数据——超详细流程
2022-11-12 22:46

风云诀4的博客爬取医药卫生知识服务系统的药品数据，流程非常详细，写下这篇博客作为一个记录，也方便后来者进行学习。
Python爬虫之豆瓣排行榜（正则表达式)
2019-12-26 12:26

徐尚的博客 Python爬虫之豆瓣排行榜（xpath) 1. 网页分析 1）使用Chrome浏览器打开网页https://maoyan.com/ ，切换到【榜单】，【TOP100榜】 2）网页翻到最后，点击“下一页”，发现网址变成了...
Python+Selenium爬虫实现:草料二维码微信群活码自动更新，提升社群运营效率
2020-11-17 19:07

蟹堡王数据工坊的博客 path) #复制本地图片路径 pyautogui.hotkey('ctrlleft','v') #模拟键盘操作，粘贴本地图片路径到系统弹出窗口的文本框中 time.sleep(1) pyautogui.press('enter') #模拟键盘操作，按回车键，打开图片 time.sleep(2) ...
Python crawler 爬虫笔记+爬虫实战
2018-12-19 21:48

未知丶丶的博客 Python crawler 爬虫笔记前言《1》什么是爬虫《2》为什么要爬虫Urllib1.urllib.request.urlopen(1)get请求(2)post请求2.urllib.parse(1)urlparse(2)urlunparse(3)urlencode3.urllib.robotparse4.爬虫伪装(1)...
没有解决我的问题, 去提问

爬取网页只能读取到“请刷新页面或按键盘F5”

1条回答 默认 最新

1条回答默认最新