设计python爬虫，可是只爬取了index标签，不知道怎么回事

问题遇到的现象和发生背景

pycharm中爬虫设计，不能爬取理想的内容

问题相关代码，请勿粘贴截图

import time
import requests
import json
from lxml import etree

def get_page(url):  #请求页面数据
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.167 Safari/537.36'
        }
        res =requests.get(url, headers=headers)
        if res.status_code == 200:
            return res.text
        else:
            return False
    except:
        return False

def parse_page(html):     #解析页面数据
    html = etree.HTML(html)
    titles = html.xpath('//div[@class="titles"]')
    for title in titles:
        res = {
            'index':title.xpath('.//*[@id="topiclist1"]/ul/li/div/a')
        }
    yield res

def write_file(item):                      #写入页面数据
    with open('./gongkong.json','a',encoding='utf-8') as fp:
        fp.write(json.dumps(item,ensure_ascii=False))
        fp.write('\n')

def main(i):
    url = f'http://bbs.gongkong.com/product/plc-1-1_{i}.htm'
    html = get_page(url)
    print(f'正在解析url:{url}')
    if html:
        for title in parse_page(html):
            print(f'正在写入数据{title}')
            write_file(item=title)

if __name__ == '__main__':
    for i in range(1,11):
        main(i)
        time.sleep(2)

运行结果及报错内容

爬取的json文件仅仅是一堆标签

我的解答思路和尝试过的方法

没有思路

我想要达到的结果

我copy的应该是超链接里的内容的xpath，可是爬取的结果没有任何有效文字

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
此人真菜 2022-05-06 10:24
关注
没看网站，尝试xpath里加个/text（）

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

设计python爬虫，可是只爬取了index标签，不知道怎么回事 json python 爬虫
2022-05-05 17:39

回答 1 已采纳没看网站，尝试xpath里加个/text（）
python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
python爬虫获取内容不全是怎么回事？ python 爬虫
2023-03-01 15:21

回答 2 已采纳你访问的这个接口就只有五千多条数据，您可以在返回的数据中看到，你可以把获取到的数据输出下resp.json()：totalCount': 5860, 'totalPages': 59因此，如果要爬取更
python爬虫实战——小说爬取
2023-05-21 21:01

清清清清弦的博客基于requests库和lxml库编写的爬虫，目标小说网站域名http://www.365kk.cc/，类似的小说网站殊途同归，均可采用本文方法爬取。
Python selenium的爬虫无法完整爬取整个页面的内容 python selenium 爬虫
2021-10-24 09:44

回答 1 已采纳爬取内容不完整，应该是文档的更多内容，要往下滑动页面才会出现这个不太清楚，应该不是什么反爬，就是类似于中途给你弹出个广告，要具体分析怎么弄VIP内容肯定是需要你的账号是VIP才能看得到的，与selen
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
Python爬虫 requests.post爬取json内容失败 ajax html5 json python
2020-12-25 10:40

回答 3 已采纳 res = requests.post(url,headers=headers,json=payload)
Python爬虫爬取视频_index.m3u8_ts.rar
2020-03-03 18:40

自己下载index.m3u8，给出网页基址然后自动下载ts，或者直接给出视频网页的地址（一般情况下，视频每一集的网页地址是有规律的，其视频所在标签会给出相应的m3u8文件的地址，需要调整一下程序），之后自行下载index....
Pandas借助Python爬虫爬取HTML网页表格保存到Excel文件的问题，解答。 python 有问必答
2021-09-20 23:00

回答 2 已采纳没有指定打开方式写为with open("./Gldjc_Pandas.txt","w+") as fin:即可有帮助望采纳~
python关于request的爬虫和对爬取的数据简单处理 python 其他
2021-06-23 17:41

回答 1 已采纳 df=pd.DataFrame(allUniv) #把数据放入csv文件 df100=df.loc[1:100] #增加一个中间变量 df100.to_csv('D:\\demo\\
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
python爬虫爬取百度图片总结_python爬虫如何批量爬取百度图片
2021-02-04 06:20

查勒斯的博客 python爬虫可以实现批量下载，根据我们下载网站位置、图片位置、图片下载数量、图片下载位置等需求进行批量下载，本文演示python爬虫批量爬取百度图片的代码过程。1、导入相关库importrequests#爬虫库importre#正则...
python爬取证监会行政监管措施遭遇 IndexError: list index out of range python 有问必答爬虫
2022-01-25 13:06

回答 3 已采纳 http://www.csrc.gov.cn/searchList/58959eb1bd68458088cac63f46a5fa40?_isAgg=true&_isJson=true&_pageSiz
python爬虫（爬取图片）
2022-08-16 11:41

愈辩已忘言的博客 python爬虫，用来爬取图片，已彼岸为例，可以自行输入要爬取的起始页和终止页
python爬虫爬取多个页面_Python 爬虫爬取多页数据
2020-11-21 00:50

weixin_39583222的博客但是，按照常规的爬取方法是不可行的，因为数据是分页的：最关键的是，不管是第几页，浏览器地址栏都是不变的，所以每次爬虫只能爬取第一页数据。为了获取新数据的信息，点击F12，查看页面源代码，可以发现数据是...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月5日

悬赏问题

¥15 微信会员卡等级和折扣规则
¥15 微信公众平台自制会员卡可以通过收款码收款码收款进行自动积分吗
¥15 随身WiFi网络灯亮但是没有网络，如何解决？
¥15 gdf格式的脑电数据如何处理matlab
¥20 重新写的代码替换了之后运行hbuliderx就这样了
¥100 监控抖音用户作品更新可以微信公众号提醒
¥15 UE5 如何可以不渲染HDRIBackdrop背景
¥70 2048小游戏毕设项目
¥20 mysql架构，按照姓名分表
¥15 MATLAB实现区间[a,b]上的Gauss-Legendre积分

设计python爬虫，可是只爬取了index标签，不知道怎么回事

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新