新手python爬虫出来是404，User-Agent写上了

# -*- coding = utf-8 -*-
import os
import sys
import requests
from bs4 import BeautifulSoup   # 网站解析
import xlwt
import urllib.error, urllib.request     # 地址url的获取
import re   # 正则
import sqlite3  # sql操作
# 在解析获取网页后需要解码为utf-8 //decode('utf-8')
# post、get请求网站为httpbin.org


#影片详情链接的规则
findlink = re.compile(r'<a href="(.*?)">')     #创建正则表达式对象，表示规则（字符串的模式）
#影片图片
findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S)   #re.S 让换行符包含在字符中
#影片片名
findTitle = re.compile(r'<span class="title">(.*)</span>')
#影片评分
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
#找到评价人数
findJudge = re.compile(r'<span>(\d*)人评价</span>')
#找到概况
findInq = re.compile(r'<span class="inq">(.*)</span>')
#找到影片的相关内容
findBd = re.compile(r'<p class="">(.*?)</p>',re.S)

def main():
    baseurl = "https://movie.douban.com/yop250?start="
    # req = requests.Request(url=baseurl,data=data, headers=headers,method="get")
    # headers = {"user-agent": ""} #m模拟真实浏览器请求头
    # response body中的内容可模拟真实浏览器访问user-agent
    #res = requests.Request(url=baseurl)
    datalist = getdata(baseurl)     # 获取数据
    # savapath = ".//存留.xls"       # savapath = r".//"  #r则不需要转义字符生效。
    # print("爬完了，可以查看数据")
    # askURL(https://)
    # 超时处理status=200：getheader值
    try:
        resource = urllib.request.urlopen(baseurl, timeout=0.5)
        print(resource.read().decode('utf-8'))  # 才能获取正常网页的值
    except urllib.error.URLError as e:
        print("time out")
# ——————————————————————————————————————————————————————————————————————————————
# 1.tag获取第一个标签
# f=open(./.....)
# html=f.read()
# bs=beautifulSoup(html,"html.parser")
# bs.属性.string
# 2.navigbleString标签里的字符串
# attr:是指对应的属性值：键值对（字典形式）
# 3.beautifulSoup是指整个文档的格式
# 4.注释会替换掉（comment）
# 遍历1.contents 获取所有的子节点，然后返回一个list
# 遍历2.children 获取子节点，然后返回一个生成器
# ctrl+/
# 搜索
# t.list = bs.find_all("a")查询所有的a
# Search查询于正则匹配。limit限制数量。
# t.list = bs.find_all(re.compile"a")
# re.compile包含（a）
# def xxxxx（）：
#    return tag.has_attr("属性名")
#
# select("title") #div标签 .class类名 ，#id，属性，子标签来寻找相关的信息



# ————————————————————————————————————————————————————————————————————————————
# 指定一个url的网站的内容
def askURL(url):
    headers = {
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36"
    }
    request = urllib.request.Request(url, headers=headers)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
        print(html)

    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)  # 包含属性
        if hasattr(e, "reason"):
            print(e.reason)
    return html



def getdata(baseurl):
    datalist = []
    # 具体问题具体分析需要多少页一页多少数据
    for i in range(0, 10):
        url = baseurl + str(i*25)
        html = askURL(url)
        # 逐一解析bs4可以把每一html转换为python
        soup = BeautifulSoup(html, "html.parser")
        # 获取符合要求的字符串，并形成列表class后需要添加下划线（选择属性值）
        for item in soup.find_all('div', class_="item"):
            data = []
            item = str(item)
            # link获取影片超链接
            link = re.findall(findlink,item)[0]  # 确定规则
            # print(item)
            # data.append(link)
    return datalist


def savedata(savepath):
    print("保存")




# 调用程序
if __name__ == "__main__":
    main()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
weixin_45115418 2021-04-12 09:21
关注
你的这个baseurl 我用浏览器去访问都是404 更别说是爬虫了

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

新手python爬虫出来是404，User-Agent写上了 python 有问必答
2021-04-11 23:30

回答 3 已采纳你的这个baseurl 我用浏览器去访问都是404 更别说是爬虫了
python3爬虫页面404 python 爬虫
2023-03-19 21:38

回答 4 已采纳用下面的方式可以请求到数据 from requests import Session url = "https://www.luogu.com.cn/" headers = { 'acce
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
Python爬虫伪装请求头User-Agent数据
2022-04-13 14:31

Python爬虫伪装请求头User-Agent数据
python爬虫问题求解 python 爬虫
2022-04-29 11:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
写完python爬虫后运行不出结果 python 有问必答爬虫
2022-02-15 05:15

回答 3 已采纳数据是动态从接口获取的，在网页中没有办法直接获取，除非用 selenium模块结合浏览器爬取动态数据 # -*- coding:utf-8 -*- import pandas as pd impor
如何使用python爬虫从企查查上获得专利文献内容？ python windows 有问必答爬虫
2021-12-18 11:16

回答 2 已采纳题主要的代码如下， from bs4 import BeautifulSoup import requests header = {"user-agent":"Mozilla/5.0.html (
python爬虫模拟浏览器访问-User-Agent过程解析
2020-09-18 05:25

主要介绍了python爬虫模拟浏览器访问-User-Agent过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
python爬虫抓数据，反馈请求成功，但是数据不对，这是为什么 python 爬虫
2022-07-20 16:02

回答 2 已采纳你确定你传的这两个参数能返回出有值的data？
python爬虫使用requests下载zip,但是报 404 Client Error python 有问必答
2021-04-26 19:10

回答 5 已采纳 http状态码404指网页或文件未找到，可能的原因：页面跳转，需要登录，传递参数headers有误，需要其他参数。
Python爬虫实战：修改User-Agent
2019-04-06 18:32

南淮北安的博客修改User-Agent 1. 前言有些网站不喜欢被程序访问，因此他们会检查链接的来源。如果访问来源不是正常的途径，就给你“掐掉”。所以为了让我们的爬虫更好的为我们服务，需要对代码进行一些改进–隐藏-，让它看...
python爬虫时Status code是500怎么解 python
2021-07-20 18:50

回答 4 已采纳在传递json格式数据时（content-type: application/json），使用json参数 import requests headers = { "Content-Type
Python爬虫小技巧之伪造随机的User-Agent
2020-12-24 20:28

不管是做开发还是做过网站的朋友们，应该对于User Agent一点都不陌生，User Agent 中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器...
python爬虫——User-Agent
2022-02-16 23:47

IT技术学习的博客那么User-Agent到底是什么呢？User-Agent是请求头的一部分。会告诉网站服务器，访问者是通过什么工具来请求的，如果是爬虫请求，一般会拒绝，如果是用户浏览器，就会应答。一、默认User-Agent 1.代码 import ...
没有解决我的问题, 去提问

悬赏问题

¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？
¥15 c++头文件不能识别CDialog

新手python爬虫出来是404，User-Agent写上了

3条回答 默认 最新

悬赏问题

3条回答默认最新