敲敲我的脑袋 2023-10-31 10:20 采纳率: 57.1%
浏览 4
已结题

爬虫动态网页,获得的数据与网页数据不同

爬虫下面的动态网页数据,找到对应的数据接口,获取相对应的数据,可是最终获得数据是第二张图

img

img

和页面中的数据完全不同,然后将爬取的数据在网页上搜索页查找不到,麻烦大家看看是什么情况
下面附上我的代码:

import re
import csv
import pandas as pd
import requests
import json
# ?&source=3&tenderCode=cscec202309120000226457
base_url='https://yzmtg.yzw.cn/portal/tender/winner/detail?'
url='https://yzmtg.yzw.cn/portal/tender/pageWinners'

headers={

    'content-type': 'application/json',
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 SLBrowser/8.0.1.4031 SLBChan/30',
    'x-yzw-auth-token': 'eON4ElMhyf1NXN6ARGnuWMHDu5ev0xEHI7pc02jBsu2TRRyMuFFSdZwE7fAPPTaM9ydbz7LxLBPq%2BeAbVjaHxg7x6hakMTGP5KxJ%2BvWiDws%3D',
    'referer': 'https://xy.yzw.cn/search/sj/bid',
    'cookie':'Hm_lvt_c1832dca4922753f642109f295f07eba=1698710490; yzw-auac-token=eON4ElMhyf1NXN6ARGnuWMHDu5ev0xEHI7pc02jBsu2TRRyMuFFSdZwE7fAPPTaM9ydbz7LxLBPq+eAbVjaHxg7x6hakMTGP5KxJ+vWiDws=; LoginRequestKey=C48368C7319C27F01498961883BFED38341F634CB9368971EF70317A4A9D5CA05077590E5CDDAF25A8D0F7DEEE54AD81805C82B997F0B3BC0E400F9083406D84D6AEF74636107A16F101E7FD671D085519D8C8613002DA27BC6D0D26CFDCA189BF01BC221CCDAE50D212503F88591FFE46813C0E9226AC568F643A7587AA1B31F88779DF1558B9831E55FB100EF94DA90B; web.auth.yzwm_lpvt_c1832dca4922753f642109f295f07eba=1698710799; HWWAFSESTIME=1698710808400; HWWAFSESID=2f46597512c433fee4'
}
for i in range(1,1001):
    data={
      "pageNum": i,
      "pageSize": 10
    }
    res=requests.post(url=url,headers=headers,data=json.dumps(data))
    # # print(res.status_code)
    print(res.text)
    # object1=re.compile(r'"source":(?P<source>.*?),',re.S)
    # object2=re.compile(r'"tenderCode":"(?P<tenderCode>.*?)"',re.S)
    object3=re.compile(r'"area":"(?P<area>.*?)"',re.S)
    object4=re.compile(r'"completeTime":"(?P<completeTime>.*?)"',re.S)
    object5=re.compile(r'"publishDate":"(?P<publishDate>.*?)"',re.S)
    object6=re.compile(r'"tenderCompanyName":"(?P<tenderCompanyName>.*?)"',re.S)
    object7 = re.compile(r'"tenderName":"(?P<tenderName>.*?)"', re.S)


    f = open("data_yzw2.csv", mode='a+',newline='', encoding='utf-8')
    csvwriter = csv.writer(f)
    # result1=object1.finditer(res.text)
    # result2=object2.finditer(res.text)
    result3=object3.finditer(res.text)
    result4=object4.finditer(res.text)
    result5=object5.finditer(res.text)
    result6=object6.finditer(res.text)
    result7=object7.finditer(res.text)
    # for it in result1:
    #     dict1=it.groupdict()
    # for it in result2:
    #     dict2=it.groupdict()

    for it in result3:
        dict3=it.groupdict()
    for it in result4:
        dict4=it.groupdict()
    for it in result5:
        dict5=it.groupdict()
    for it in result6:
        dict6=it.groupdict()
    for it in result7:
        dict7=it.groupdict()
    dict={}
    # dict.update(dict1)
    # dict.update(dict2)
    dict.update(dict3)
    dict.update(dict4)
    dict.update(dict5)
    dict.update(dict6)
    dict.update(dict7)

    csvwriter.writerow(dict.values())
    f.close()
    print('over!')

data = pd.read_csv('data_yzw2.csv')

  • 写回答

2条回答 默认 最新

  • 二九筒 2023-10-31 11:27
    关注

    你传参就只传了分页的参数,其他参数都没传啊,而且接口还不一样?

    img

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 11月9日
  • 已采纳回答 11月1日
  • 创建了问题 10月31日

悬赏问题

  • ¥15 Opencv(C++)异常
  • ¥15 VScode上配置C语言环境
  • ¥15 汇编语言没有主程序吗?
  • ¥15 这个函数为什么会爆内存
  • ¥15 无法装系统,grub成了顽固拦路虎
  • ¥15 springboot aop 应用启动异常
  • ¥15 matlab有关债券凸性久期的代码
  • ¥15 lvgl v8.2定时器提前到来
  • ¥15 qtcp 发送数据时偶尔会遇到发送数据失败?用的MSVC编译器(标签-qt|关键词-tcp)
  • ¥15 cam_lidar_calibration报错