爬取网页只能读取到“请刷新页面或按键盘F5”

以下是源码

 import urllib
from urllib import request
import re
import random
url = "http://x77558.net/bbs/thread.php?fid=6"

user_agent = [
    "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",

    "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",

    "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0",

    "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727; .NET CLR 3.0.30729; .NET CLR 3.5.30729; InfoPath.3; rv:11.0) like Gecko",

    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",

    "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)",

    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)",

    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",

    "Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",

    "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11",

    "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11",

    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser)",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",

    "Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",

    "Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",

    "Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",

    "Mozilla/5.0 (Linux; U; Android 2.3.7; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1",

    "MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1",

    "Opera/9.80 (Android 2.3.4; Linux; Opera Mobi/build-1107180945; U; en-GB) Presto/2.8.149 Version/11.10",

    "Mozilla/5.0 (Linux; U; Android 3.0; en-us; Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13",

    "Mozilla/5.0 (BlackBerry; U; BlackBerry 9800; en) AppleWebKit/534.1+ (KHTML, like Gecko) Version/6.0.0.337 Mobile Safari/534.1+",

    "Mozilla/5.0 (hp-tablet; Linux; hpwOS/3.0.0; U; en-US) AppleWebKit/534.6 (KHTML, like Gecko) wOSBrowser/233.70 Safari/534.6 TouchPad/1.0",

    "Mozilla/5.0 (SymbianOS/9.4; Series60/5.0 NokiaN97-1/20.0.019; Profile/MIDP-2.1 Configuration/CLDC-1.1) AppleWebKit/525 (KHTML, like Gecko) BrowserNG/7.1.18124",

    "Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; HTC; Titan)",

    "UCWEB7.0.2.37/28/999",

    "NOKIA5700/ UCWEB7.0.2.37/28/999",

    "Openwave/ UCWEB7.0.2.37/28/999",

    "Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/999",

    # iPhone 6：

    "Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25",
]


# read the url and return a list named page_data
def read_url(url,page_data,headers):
    req = urllib.request.Request(url, headers=headers)
    for i in range(3):
        web_data = urllib.request.urlopen(req).read()
        web_data = web_data.decode("gbk",errors = 'ignore')# the second parament can solver the problem that in 
    # error decode
    page_data.append(str(web_data))
    return page_data


# find taget in the page , used re , an return a list 
def find_tag(tagstr,idx,data,lists):
    lists.append(re.findall(tagstr,data[idx])) 
    return lists

# read the list to download the photo which type is jpg
def download_jpg(lists,path):
    for lis in lists:
        for l in lis:
            print(l)
            name = l.split("/")[-1]
            print(name)
            if ".jpg" or ".png" in l:
                if "js" in l:
                    continue
                elif "http" in l:
                    # sometimes met a missing name 403 , the solve is in the another file named download.py 
                    urllib.request.urlretrieve(l,path+name)
                else:
                    continue

tagstr = '<a title="开放主题" href="(.*?)"'

page_data = []
img_url_list = []
url_lsit = []
img_list = []

while len(page_data)==0 or page_data[-1]=="请刷新页面或按键盘F5":
    headers = {'User-Agent': random.choice(user_agent)}
    read_url(url,page_data,headers)
    print(page_data[-1])

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
lyhsdy 2018-10-24 02:08
关注
建议使用selenium模拟爬取

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
python爬虫网页标签个别无法读取 python 开发语言有问必答爬虫
2022-04-05 22:09

回答 3 已采纳因为个别标签字典中没有bond_nm和bond_nm_tip键 data2 = data_get['bond_nm'] data5 = data_get['bond_nm_tip']
python爬取网页network_Python爬虫经常爬不到数据，或许你可以看一下小编的这篇文章...
2020-12-03 06:53

weixin_39747075的博客 1.最简单的Python爬虫最简单的Python爬虫莫过于直接使用urllib.request.urlopen(url=某网站)或者requests.get(url=某网站)例如：爬取漫客栈里面的漫画文章链接：运用Python爬虫下载漫客栈里面的漫画代码和运行结果：...
xpath爬取图片，得不到src ，python求解决 python 有问必答爬虫
2022-01-27 12:25

回答 4 已采纳图片是js解析出来的，xpath无效，数据在js变量里面，正则提取下数据用json.loads加载获取代码如下 import requests import re import json def
Python爬取到某url的text，格式为如下，如何读取？ python
2020-09-10 16:53

回答 1 已采纳可以拼接下，得到一个json就能解析了 {arr:[{"姓名":"张三","身高":"156"},{"姓名":"李四","身高":"176","体重":"94"}]}
为什么用python 爬取数据到excel中300多行只剩下一行？ python vscode 开发语言有问必答
2021-08-01 12:32

回答 4 已采纳将写入文件语句放到循环外，加上列名并逐行写入，后面的代码可以这样写： #code with open('data/51job.csv','w') as f: f.write(','.join(
Python爬虫项目分享一：《爬取周杰伦的歌曲清单》
2019-10-12 09:49

ff876409866的博客 python爬取周杰伦的歌曲清单偶得一不错的爬虫教程，现博客分享，想要获取完整教程，加V：ff17328081445。文章为系列文章，持续更新，欢迎关注。浏览器分析网页 #打开网址（首页搜索周杰伦） ...
python使用requests get爬取网页失败 python 有问必答
2021-04-17 17:26

回答 4 已采纳 https://www.baidu.com/s 改成 http://www.baidu.com/s
python爬虫返回的html文件打开网页是空的 python
2022-06-15 23:07

回答 1 已采纳很正常，一个网页能运行，不但需要html文件，还需要css和js文件在背后支撑。（前端和后端）你只是爬下来了一个html文件，自然什么都不会展示出来。你仔细想想，如果这么轻易的就能被你爬到百度的htm
用Python爬取一个网页，向下滚动会不断生成div，想要爬取这些div但爬取下来只有个loading python 爬虫
2022-03-28 22:27

回答 2 已采纳阿这.你这个URL所需要的电影数据不是写在接口里嘛?????打开F12开发者工具.刷新页面.选择XHR.就能看到这个网站数据返回是JSON接口https://api.jackeriss.com/api
进阶网络爬虫实践内容---微博网页内容爬取
2023-12-15 09:31

楠笙屿海的博客实战内容：访问微博热搜榜，获取微博热搜榜前50条热搜名称、链接及其实时热度，并将获取到的数据通过邮件的形式，每20秒发送到个人邮箱中。
python读取文件夹内文件显示找不到的问题 python
2022-04-26 10:15

回答 8 已采纳 ##这样呢with open('/Users/chendingyu/Desktop/20220411/510880.dat','rb') as fo: #读入 data=fo.read()
【爬虫入门】爬取音乐排行榜
2023-07-25 19:55

Zaly.的博客从以上的两个获取歌手名的方式我们了解到了findAll函数可以获取到对应的标签，而get函数可以进一步获取到标签内的特定信息。通过我们对html数据的观察可以发现，一首歌如果有多个歌手，那么这几个歌手将会被保存在同...
爬取医药卫生知识服务系统的药品数据——超详细流程
2022-11-12 22:46

风云诀4的博客爬取医药卫生知识服务系统的药品数据，流程非常详细，写下这篇博客作为一个记录，也方便后来者进行学习。
没有解决我的问题, 去提问

悬赏问题

¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！

爬取网页只能读取到“请刷新页面或按键盘F5”

1条回答 默认 最新

悬赏问题

1条回答默认最新