用python爬取网页时，没有报错，但却执行不出来结果，没有生成txt文件

问题遇到的现象和发生背景：用python爬取网页时，没有报错，但却执行不出来结果，没有生成txt文件

import time
import requests
import re
import json
import urllib.request
# 伪装浏览器
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36',
}
# 使用选择的代理构建处理器处理对象
httpproxy_handler = urllib.request.ProxyHandler({'http': "47.92.234.75:80"})
opener = urllib.request.build_opener(httpproxy_handler)
request = urllib.request.Request("https://www.maoyan.com/")
response = opener.open(request)
print(response.read())
# 定义读取一个url并返回相应信息的函数
def get_one_page(url):
# 读取网页
    response = requests.get(url,headers=headers)
#判断是否读取成功
    if response.status_code== 200:
#返回读取的内容（HTML代码）
        return response.text
    return None
# 抓取猫眼首页信息
def main(offset):
    url ='https://www.maoyan.com/board/4?offset='+str(offset)
    html = get_one_page(url)
    for i in parse_one_page(html):
        write_to_file(i)
        print(i)
# 定义一个解析HTML代码的函数
def parse_one_page(html):  #正则提取数据
# 编译成一个正则表达式对象
    pattern = re.compile(    #括号内的正则表达式才是我需要的信息，所以用（）获取
        '<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>.*?star.*?>(.*?)</p>.'
    '*?releasetime.*?>(.*?)</p>.*?integer.*?>(.*?)</i>.*?fraction.*?>(.*?)</i>.*?</dd>',re.S)
# 开始查找
    items = re.findall(pattern,html)
# 遍历查找到的内容
    for item in items:    #yield关键字，是一个生成器，在这里相当于return强化版，即使说可以多次返回return给函数，然后通过for循环从函数中提取，或者通过parse_one_page(html).next()提取
        yield{               #字典内是对数据的再次整理，规范化
            'index':item[0],
            'image':item[1],
            'title':item[2].strip(),
            'actor':item[3].strip()[3:] if len(item[3])>3 else '',
            'time':item[4].strip()[5:] if len(item[4])>5 else '',
            'score': item[5].strip()+item[6].strip()
        }
# 将结果写到一个txt文档中
def write_to_file(content):
    with open('result3.txt','a',encoding='utf-8') as f:
        print(type(json.dumps(content)))
        f.write(json.dumps(content,ensure_ascii=False)+'\n')
# 图片下载
def pic_download(url,title):
    r=requests.get(url)
    with open("pics/"+title+".jpg",'wb') as f:
        f.write(r.content)
if __name__ == '__main__':
    for i in range(10):
        main(offset=i*10)
# 延迟1秒，避免反爬机制
        time.sleep(1)

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果：运行出txt文件

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
莫以时光逐流年 2021-12-04 14:44
关注
自己看下获取的html.就知道原因了

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

用python爬取JSON数据时，结果显示【】，里面没有内容 json python 有问必答
2021-11-23 20:55

回答 1 已采纳输出下print(response.text)看看返回的数据是不是json数据你把请求头和表单数据都加上试 import requests import json post_url = 'http:/
用Python爬取一个网页，向下滚动会不断生成div，想要爬取这些div但爬取下来只有个loading python 爬虫
2022-03-28 22:27

回答 2 已采纳阿这.你这个URL所需要的电影数据不是写在接口里嘛?????打开F12开发者工具.刷新页面.选择XHR.就能看到这个网站数据返回是JSON接口https://api.jackeriss.com/api
python爬虫代码运行不报错，但是保存到CSV的数据为空，是哪里出了问题 python
2022-08-09 16:38

回答 8 已采纳 respone.text获取的json数据格式有问题,用 json.loads(respone.text)解析出错另外写csv文件的代码要放到for循环外面,所有数据获取之后再一起写入 cit
python代码数据不报错也不出来
2022-11-23 11:30

野犬家被漏掉的不逊于太宰治的文豪的博客真纯小白，就是写了一串爬取网页的代码，在pycharm运行不报错，但是也没有数据。求求求大佬帮帮QAQ，真的是简单的一个爬取网页的代码，也是第一次提问QAQ。
用python爬取小说时，拼接url类型错误 python
2022-01-10 18:52

回答 1 已采纳 li_url = "https://www.shicimingju.com" + link.xpath('./a/@href')[0] 这样子就行了
python简单爬虫正常运行遍历，没有报错，但最后csv文件为什么只保存了一条信息 python
2019-07-29 00:53

回答 1 已采纳 with open(r'C:\Users\Administrator\Desktop\python\豆瓣电影分类前100.csv', 'w', newline='', encoding='utf8')
当我爬取一个m3u8中的ts地址时，当下在最后一个文件时老是报错 python 有问必答
2021-05-20 17:33

回答 3 已采纳 post传入的参数不对，可能应该传入列表（list参数），但实际传入的是字符串，你检查下
Python应用开发——爬取网页图片
2022-09-06 19:00

柒壹漆的博客当我们需要从网页上面下载很多图片的时候，一个一个手动保存实在是太累人了。那么有没有批量下载的办法呢？答案是有的，Python爬虫就可以完美的做到这一点，而且作为一个Python的初学者，我可以很负责任的告诉你，...
用seleium自动爬取网页时出现这个错误怎么解决啊现在每个seleium程序都出现同样的报错 python 有问必答
2022-02-14 00:14

回答 3 已采纳你重新卸载selenium后尝试,我试了你的程序发型我这里可以运行
如何使用python爬虫从企查查上获得专利文献内容？ python windows 有问必答爬虫
2021-12-18 11:16

回答 2 已采纳题主要的代码如下， from bs4 import BeautifulSoup import requests header = {"user-agent":"Mozilla/5.0.html (
想爬取SHEIN的女裙的图片、标题、价格与颜色，但总是报错 python 有问必答
2021-05-16 13:22

回答 3 已采纳一般是页面没有全部被加载，然后程序已经被读取了。或者这个标签根本不存在。 import requests import bs4 import time import random import p
python爬取多页时到某一页出错_Python之爬取网页时遇到的问题——BeautifulSoup
2021-01-14 01:12

挖数的博客 Beautiful Soup是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树。它提供简单又常用的导航，搜索以及修改剖析树的操作。它可以大大节省你的编程时间。通俗的来说，就是在req = urll...
Python Qt报错 'QMainWindow' object has no attribute 'on_pushButton' python qt
2022-09-03 19:01

回答 2 已采纳自己定义的 MyMainClass 有问题， main函数没实例化自己的类对象，初学qt 有点生疏。 ```python # -*- coding: utf-8 -*- import sys fr
Python爬虫学习-简单爬取网页数据
2021-08-11 21:57

Polaris_T的博客这是一篇介绍如何用Python实现简单爬取网页数据并导入MySQL中的数据库的文章。主要用到BeautifulSoup requests 和 pymysql。以网页https://jbk.39.net/mxyy/jbzs/为例，假设我们要爬取的部分数据如下图所示...
python 爬取图片、没有后缀名_初学Python-只需4步，爬取网站图片（附py文件）
2021-03-17 10:51

维斯特的萨克斯的博客很多人学习Python很重要的一个原因是，可以很简单的把一个网站的数据爬下来。尤其是做我们这一行，产品经理，电商行业。领导：弄一个买卖游戏周边商品的交易APP出来。我：行，那我们卖什么呀？领导：看下友商卖什么...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月4日

悬赏问题

¥15 两台交换机分别是trunk接口和access接口为何无法通信，通信过程是如何？
¥15 C语言使用vscode编码错误
¥15 用KSV5转成本时，如何不生成那笔中间凭证
¥20 ensp怎么配置让PC1和PC2通讯上
¥50 有没有适合匹配类似图中的运动规律的图像处理算法
¥15 dnat基础问题,本机发出,别人返回的包,不能命中
¥15 请各位帮我看看是哪里出了问题
¥15 vs2019的js智能提示
¥15 关于#开发语言#的问题：FDTD建模问题图中代码没有报错，但是模型却变透明了
¥15 uniapp的h5项目写一个抽奖动画

用python爬取网页时，没有报错，但却执行不出来结果，没有生成txt文件

问题遇到的现象和发生背景 ：用python爬取网页时，没有报错，但却执行不出来结果，没有生成txt文件

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果：运行出txt文件

1条回答 默认 最新

问题事件

悬赏问题

问题遇到的现象和发生背景：用python爬取网页时，没有报错，但却执行不出来结果，没有生成txt文件

1条回答默认最新