s3032783543 2023-09-07 23:27 采纳率: 50%
浏览 14
已结题

爬取京东网页时的问题

博主,你好
初学爬虫,在浏览你爬取京东电脑的那篇文章(https://blog.csdn.net/qq_53336761/article/details/129816773?spm=1001.2014.3001.5502%EF%BC%89%E4%B8%AD%EF%BC%8C%E9%81%87%E5%88%B0%E4%BA%86%E4%B8%80%E4%BA%9B%E9%97%AE%E9%A2%98

1、 对网页发出请求后返回的 response中,令html = response.text,若输出html,在head内容中好像存在着一段极长的乱码(应该是乱码,在原网页的解析中并没有找到),在尝试过 以下代码后,仍会出现该问题

response.encoding = response.apparent_encoding

这是在在cmd窗口中运行的Python指令

img

这是cmd窗口中显示的乱码

img

2、在对京东商中的每台电脑信息的提取中,您选用了 items = soup.select('.gl-item') 的方法对包含电脑信息的 li 标签进行了储存和遍历,但在我使用该代码时,却无法找到 li 标签
这是我运行代码时的图片

img

于是我换了一种储存方法 用 li_tags = soup.body.find_all(" li")
运行得到的结果仍是这样,您可以帮我找到问题所在吗?

希望您能抽出时间帮助我解决问题,在此致谢!

  • 写回答

2条回答 默认 最新

  • cjh4312 2023-09-08 08:33
    关注

    是想要这个吗

    import requests
    import pandas as pd
    headers = {
        'referer': 'https://search.jd.com/',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36',
    }
    
    seach_name="电脑"
    str1='https://api.m.jd.com/api?functionId=pc_search_adv_Search&appid=search-pc-java&client=pc&clientVersion=1.0.0&uuid=122270672.16805282970511295684352.1680528297.1692252353.1694131552.5&loginType=3&t=1694131732066&body={%22area%22:%2228%22,%22enc%22:%22utf-8%22,%22keyword%22:%22'
    str2='%22,%22adType%22:7,%22page%22:%221%22,%22ad_ids%22:%22291:33%22,%22xtest%22:%22new_search%22}&x-api-eid-token=jdd03MTSS24MZUGUC24QBBJPB34TTA4BACCVCSMHPEMT6V3FHXLGOBZYQRFVA5HJWWYMV6XG5FJ6IGADZHZL7WVHSPSTSFAAAAAMKOIPHZSAAAAAACFQ3IQSOWHSA3MX'
    url=f'{str1}{seach_name}{str2}'
    response = requests.get(
        url,
        headers=headers,
    )
    data=pd.DataFrame(response.json()['291'])
    
    

    img

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 9月16日
  • 已采纳回答 9月8日
  • 创建了问题 9月7日

悬赏问题

  • ¥15 苹果系统的mac m1芯片的笔记本使用ce修改器使用不了
  • ¥15 单相逆变的电压电流双闭环中进行低通滤波PID算法改进
  • ¥15 关于#java#的问题,请各位专家解答!
  • ¥15 如何卸载arcgis 10.1 data reviewer for desktop
  • ¥15 共享文件夹会话中为什么会有WORKGROUP
  • ¥15 关于#python#的问题:使用ATL02数据解算光子脚点的坐标(操作系统-windows)
  • ¥115 关于#python#的问题:未加密前两个软件都可以打开,加密后只有A软件可打开,B软件可以打开但读取不了数据
  • ¥15 在matlab中Application Compiler后的软件无法打开
  • ¥15 想问一下STM32创建工程模板时遇到得问题
  • ¥15 Fiddler抓包443