爬虫爬取的html是不完整的

利用r = requests.get(url1,headers=headers)

r.text获得网页的html，然后和把网页保存下来用记事本打开，放到word里面看，结果发现爬取出来的html只有700+的字数，而保存下来的网页用记事本打开有25000+的字数

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

7条回答默认最新

python技巧(数据分析及可视化) 2021-03-16 16:14

关注

对于有些异步加载的网页, 可以用selenium库模拟浏览器爬取数据

这段代码可参考:

# 导入工具包
import pandas as pd
import numpy as np
import time
from selenium import webdriver
driver = webdriver.Chrome()

# 爬取的网址

url = ['https://qd.xiaozhu.com/search-duanzufang-p{}-0/'.format(i) for i in range(1,14)]
lis = []
for urli in url:
    driver.get(urli)
    driver.implicitly_wait(10)

    # 抓取信息
    # 名称 #page_list > ul > li:nth-child(21) > div.result_btm_con.lodgeunitname > div.result_intro > a > span
    names =  driver.find_elements_by_css_selector('div.result_btm_con.lodgeunitname > div.result_intro > a > span')
    # 价格 #page_list > ul > li:nth-child(1) > div.result_btm_con.lodgeunitname > div:nth-child(1) > span > i
    jiages = driver.find_elements_by_css_selector('div.result_btm_con.lodgeunitname > div > span > i')
    # 描述 #page_list > ul > li:nth-child(21) > div.result_btm_con.lodgeunitname > div.result_intro > em
    jianjies =  driver.find_elements_by_css_selector('div.result_btm_con.lodgeunitname > div.result_intro > em')
    # 链接 #page_list > ul > li:nth-child(1) > a
    lianjies = driver.find_elements_by_css_selector('#page_list > ul > li > a')
    # 经纬度#page_list > ul > li:nth-child(1)
    jwdus = driver.find_elements_by_css_selector('#page_list > ul > li')
    
    # 汇总数据

    for name,jiage,jianjie,lianjie,jwdu in zip(names,jiages,jianjies,lianjies,jwdus):
        namei = name.text
        jiagei = jiage.text
        jianjiei = jianjie.text.strip().replace('\n','').replace(' ','')
        lianjiei = lianjie.get_attribute('href')
        #weizhi = get_info(lianjiei)
        jwdui = jwdu.get_attribute('latlng')
        
        lis.append([namei,jiagei,jianjiei,lianjiei,jwdui])
     time.sleep(np.random.randint(5,15))   
result1 = pd.DataFrame(lis)
result1.columns = ['名称','价格','描述','链接','经纬度']

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(6条)

报告相同问题？

关注问题

python爬虫爬取多个页面_Python 爬虫爬取多页数据
2020-11-21 00:50

weixin_39583222的博客但是，按照常规的爬取方法是不可行的，因为数据是分页的：最关键的是，不管是第几页，浏览器地址栏都是不变的，所以每次爬虫只能爬取第一页数据。为了获取新数据的信息，点击F12，查看页面源代码，可以发现数据是...
基于python的网络爬虫爬取天气数据及可视化分析python大作业，课程设计报告
2022-06-13 17:03

基于python的网络爬虫爬取天气数据及可视化分析 python程序设计报告源代码+csv文件+设计报告 python期末简单大作业（自己写的，重复率低）利用python爬取了网站上的城市天气，并用利用可视化展示，有参考文献有...
python爬虫爬取网页图片
2022-12-22 18:05

chenruhan_QAQ_的博客 python爬虫爬取网页上的图片
python爬虫爬取电影数据并做可视化
2023-09-18 13:26

程序小武的博客对爬取的数据进行可视化
python 爬虫爬取天气
2022-08-16 13:36

Katherine1029的博客 python 爬虫
基于Python实现的携程机票数据爬取源码
2024-03-25 17:38

项目概述：本项目采用Python语言开发，旨在实现对携程机票数据的爬取。整个项目由多个模块组成，包括HTML、CSS、JavaScript和Python等，共计82个文件。具体文件类型分布如下：HTML文档19个，Python脚本16个，CSS样式...
Python指南：六步教你如何使用python爬虫爬取数据
2024-09-19 10:02

WANGWUSAN66的博客然后，我们浏览Name这部分，找到我们想要爬取的文件，鼠标右键，选择copy，复制下网页的URL。由于我们需要的是网页上的一类信息，所以我们需要对获取的地址进行分析，提取。用左上角的小框带箭头的标志，如下图，...
python爬虫 - 爬取图片
2024-04-12 15:15

牛魔王的小怪兽的博客文章目录 1、爬取图片示例1：使用 .urlretrieve() 函数 2、爬取图片示例2 - 使用 open/write 函数 3、爬取图片示例3 3.1 使用 open/write 下载 3.2 使用 urlretrieve下载爬虫的本质：模拟对应的App，浏览器访问对应...
【爬虫】python爬虫爬取网站页面（基础讲解）
2023-10-13 13:58

米码收割机的博客博__主：米码收割机技__能：C++/Python语言公众号：测试开发自动化【获取源码+商业合作】荣__誉：阿里云博客专家博主、51CTO技术博主专__注：专注主流机器人、人工智能等相关领域的开发、测试技术。
python爬虫实战——小说爬取
2023-05-21 21:01

清清清清弦的博客基于requests库和lxml库编写的爬虫，目标小说网站域名http://www.365kk.cc/，类似的小说网站殊途同归，均可采用本文方法爬取。
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

爬虫爬取的html是不完整的

7条回答默认最新

码龄粉丝数原力等级 --

爬虫爬取的html是不完整的

7条回答 默认 最新

7条回答默认最新