爬虫爬取的源代码和直接从网页打开的源代码不一样

import re
import requests
from bs4 import BeautifulSoup
import webbrowser


def Get_web(url): #获取网页的HTML文档。这里web_info 显示的HTML文件和直接从网页查看源文件的都不一样了
    try:
        r = requests.get(url,headers={'user-agent':'Mozilla/5.0'})
        print("!")
        print(r.raise_for_status())
        r.encoding=r.apparent_encoding
        web_info=r.text
        print(web_info)
    except:
        print("error")
    return web_info

def Process_text(web_info):
    soup = BeautifulSoup(web_info,"html.parser")
    script = soup.find_all("script")
    print(script)
    Processed_text=[]
    return Processed_text

def Print_text(Processed_text):
    pass


def main():
    item="螺狮粉"
    for num in range(0,1):
        url="https://s.taobao.com/search?q=螺狮粉&s=0"
        webbrowser.open(url, new=0, autoraise=True)
        web_info = Get_web(url)
        Process_text(web_info)

main()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
jxq1391967985 2020-04-30 09:55
关注
如果是静态页面抓取应该是和浏览器打开的一样的，动态加载的内容是不能直接抓取的，比如嵌套的ifram或者Ajax异步请求动态填充的数据需要拿到请求连接再次请求来获取返回的数据

解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫requests反还内容与网页内容不相同 python 有问必答
2022-03-08 22:50

回答 2 已采纳 requests.get得到的是源代码，ajax动态加载或者js动态生成的html代码获取不到，需要直接请求接口获取数据或者从源代码中找到js数据源进行解析。截图中右边块的数据接口为下面这个，直接re
python爬取动态网页时为什么动态网页的url的源码和网页源码不一样？ html5 python 正则表达式
2020-01-30 18:11

回答 1 已采纳加载更多是通过ajax异步加载的请求的是 Request URL: https://cn.burberry.com/service/shelf/mens-new-arrivals-new-in/?
python爬虫爬虫的网站源码不齐全怎么办 python
2019-04-26 16:05

回答 1 已采纳现在都是动态网页,你爬取到的只是一个基本框架而已。你可以用f12 然后检测一下http请求，基本上获取到的都是第一个请求。后面的数据都是通过js修改后的网页。交互式的。所以要想做复杂爬虫，
python爬取网页代码_python爬虫爬取网页的内容和网页源码不同？
2020-11-25 23:10

weixin_39603908的博客可以看到这里id为k_total的元素值不同，爬出来是1，网页源码是55。附还未完成的代码：import requestsfrom bs4 import BeautifulSoupimport rehead={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) Apple...
爬取的网页代码一堆无规则英文字母 python 爬虫
2022-07-17 20:04

回答 2 已采纳这不是乱码，其实这一串字符串是，img标签中的图片使用base64编码的结果
爬虫爬到的数据和看见的数据不一样 python 爬虫
2022-02-21 22:34

回答 1 已采纳在xpath里把tr[3]改成tr就可以了，因为网页里的表格奇数行和偶数行不是一个tr下的元素
为什么爬取的网站，页面代码少了好多，然后网站显示空白 python 有问必答爬虫
2022-02-19 20:26

回答 3 已采纳你是用requests爬取网页的吗你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用s
python爬虫实验——爬取网页图片+网页源代码
2020-07-07 17:04

小怪兽655的博客从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。网络爬虫的基本操作是抓取...
爬取网页时遇到网页代码为编码形式如何进行反编码？ python 前端
2022-05-07 11:36

回答 3 已采纳典型的被反爬机制检查到了。补全请求头或者是cookie再进行访问。可以发一下网站让大家伙们练练手看看反而更快的解决问题。
Python爬虫 requests.post爬取json内容失败 ajax html5 json python
2020-12-25 10:40

回答 3 已采纳 res = requests.post(url,headers=headers,json=payload)
网页爬虫，F12可以看到的内容，但爬出来的源码里没有 python
2020-10-12 16:35

回答 2 已采纳把浏览器源码，跟爬取的源码全部贴出来
使用 Python3 获取网页源代码
2022-12-23 21:57

猿小猴子的博客爬虫的数据爬取量非常大，显然不可能对每个页面都手动复制源代码，因此就有必要使用自动化的方式来获取网页源代码。
python 正则豆瓣电影排行问题 python 正则表达式爬虫
2022-04-28 01:22

回答 2 已采纳使用管道符呢？(&nbsp|\.{3})
Python应用开发——爬取网页图片
2022-09-06 19:00

柒壹漆的博客当我们需要从网页上面下载很多图片的时候，一个一个手动保存实在是太累人了。那么有没有批量下载的办法呢？答案是有的，Python爬虫就可以完美的做到这一点，而且作为一个Python的初学者，我可以很负责任的告诉你，...
python爬虫爬取图片代码_Python爬虫抓取指定网页图片代码实例
2020-11-21 00:54

weixin_39854681的博客想要爬取指定网页中的图片主要需要以下三个步骤：（1）指定网站链接，抓取该网站的源代码（如果使用google浏览器就是按下鼠标右键 -> Inspect-> Elements 中的 html 内容）（2）根据你要抓取的内容设置正则表达式以...
没有解决我的问题, 去提问

悬赏问题

¥15 #MATLAB仿真#车辆换道路径规划
¥15 java 操作 elasticsearch 8.1 实现索引的重建
¥15 数据可视化Python
¥15 要给毕业设计添加扫码登录的功能！！有偿
¥15 kafka 分区副本增加会导致消息丢失或者不可用吗？
¥15 微信公众号自制会员卡没有收款渠道啊
¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘

爬虫爬取的源代码和直接从网页打开的源代码不一样

2条回答 默认 最新

悬赏问题

2条回答默认最新