python3 页面抓取怎么设置header

url = 'http://used.21-sun.com/'
user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36'
headers = { 'User-Agent' : user_agent }
data = None
page = urllib.request.urlopen(url)
content = page.read().decode('utf-8')
pattern = re.compile(r'

.*?(.*?).*?(.*?).*?(.*?)(.*?)',re.S)
items = re.findall(pattern,content)
这么写的代码一直报错

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2016-08-04 07:20
关注
报错指的什么？还要看对应的网站是不是会检查其他信息来识别你是否为爬虫

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python抓取405错误 python 有问必答爬虫
2022-01-07 16:37

回答 2 已采纳建议使用requests,添加参数headers,cookies，params,这样试一下。
Python学习，idle页面展示 python
2022-08-10 00:17

回答 2 已采纳【有帮助请采纳】 1、如果上面是你的完整代码，那么你应该要想想，你的函数是不是只定义了而没有调用呢？2、既然函数中 url 要定义为固定内容的，为什么不将其作为默认参数呢？解决办法：将 url 改为默
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 19:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
python使用自定义user-agent抓取网页的方法
2020-12-24 06:41

本文实例讲述了python使用自定义user-agent抓取网页的方法。分享给大家供大家参考。具体如下：下面python代码通过urllib2抓取指定的url的内容，并且使用自定义的user-agent，可防止网站屏蔽采集器 import urllib2 ...
python爬虫运行没有结果的问题 python 爬虫
2023-02-24 21:28

回答 3 已采纳给你起个头，其它比较容易，一次请求了5000个，多了好像不行，试了9000个都可以，可以分两次 url="http://vip.stock.finance.sina.com.cn/fund_cent
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
python 抓的UDP数据与实际不符 python udp wireshark
2022-01-18 14:05

回答 1 已采纳 load='\xff\xe5\xa0;\xff\xed\xb0Y\xff\xe5\xa0;\xff\xed\xb0Y\xff\xe5\xa0:\xff\xed\xb0X\xff\xe5\xa0;\
Python爬虫之网页图片抓取的方法
2021-01-20 05:21

这段时间一直在学习Python的东西，以前就听说Python爬虫多厉害，正好现在学到这里，跟着小甲鱼的Python视频写了一个爬虫程序，能实现简单的网页图片下载。二、代码 __author__ = JentZhang import urllib.request ...
python爬取并下载的文件为什么是空白且加载不出来？ python
2021-08-08 11:16

回答 2 已采纳你只是爬取了html网页，，怎么能让你运行人家的网页呢你说的加载不出来那是肯定的这个样子应该你只是爬了个外壳，css和js都不能用了，所以背景是白的，按钮都是没有样式的如果明白了，点击右上角给个采纳哦
selenim 抓取iframe 中的内容，但是iframe内容跳转后怎么抓取新的？ python selenium
2020-07-29 17:44

回答 1 已采纳 https://blog.csdn.net/xuejianbest/article/details/100887964
python爬取基金净值导出CSV文件后中文显示乱码 python 有问必答
2022-02-14 15:47

回答 4 已采纳指定read_html的编码。 import pandas as pd import csv for i in range(1,2): url = 'https://fundf10.ea
Python爬虫抓取手机APP的传输数据
2020-12-23 13:10

大多数APP里面返回的是json格式数据，或者一堆加密过的数据。这里以超级课程表APP为例，抓取...另外必须加header,一开始我没有加header得到的是登录错误，所以要带上header信息。 2、登录登录代码： import urllib
python 抓取POST 网页失败，求大神帮忙看下代码哪里有问题 python
2015-04-02 07:19

回答 3 已采纳两个格式是否完全一致?自己仔细对比一下
python爬虫header_爬虫之header
2021-01-14 21:01

天使的倔强的博客有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers 的属性。首先，打开我们的浏览器，调试浏览器F12，我用的是Chrome...
没有解决我的问题, 去提问

悬赏问题

¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！

python3 页面抓取怎么设置header

2条回答 默认 最新

悬赏问题

2条回答默认最新