设计python爬虫，可是只爬取了index标签，不知道怎么回事

问题遇到的现象和发生背景

pycharm中爬虫设计，不能爬取理想的内容

问题相关代码，请勿粘贴截图

import time
import requests
import json
from lxml import etree

def get_page(url):  #请求页面数据
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.167 Safari/537.36'
        }
        res =requests.get(url, headers=headers)
        if res.status_code == 200:
            return res.text
        else:
            return False
    except:
        return False

def parse_page(html):     #解析页面数据
    html = etree.HTML(html)
    titles = html.xpath('//div[@class="titles"]')
    for title in titles:
        res = {
            'index':title.xpath('.//*[@id="topiclist1"]/ul/li/div/a')
        }
    yield res

def write_file(item):                      #写入页面数据
    with open('./gongkong.json','a',encoding='utf-8') as fp:
        fp.write(json.dumps(item,ensure_ascii=False))
        fp.write('\n')

def main(i):
    url = f'http://bbs.gongkong.com/product/plc-1-1_{i}.htm'
    html = get_page(url)
    print(f'正在解析url:{url}')
    if html:
        for title in parse_page(html):
            print(f'正在写入数据{title}')
            write_file(item=title)

if __name__ == '__main__':
    for i in range(1,11):
        main(i)
        time.sleep(2)

运行结果及报错内容

爬取的json文件仅仅是一堆标签

我的解答思路和尝试过的方法

没有思路

我想要达到的结果

我copy的应该是超链接里的内容的xpath，可是爬取的结果没有任何有效文字

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
此人真菜 2022-05-06 10:24
关注
没看网站，尝试xpath里加个/text（）

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

设计python爬虫，可是只爬取了index标签，不知道怎么回事 json python 爬虫
2022-05-05 17:39

回答 1 已采纳没看网站，尝试xpath里加个/text（）
python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
python爬虫获取内容不全是怎么回事？ python 爬虫
2023-03-01 15:21

回答 2 已采纳你访问的这个接口就只有五千多条数据，您可以在返回的数据中看到，你可以把获取到的数据输出下resp.json()：totalCount': 5860, 'totalPages': 59因此，如果要爬取更
python爬虫实战——小说爬取
2023-05-21 21:01

清清清清弦的博客基于requests库和lxml库编写的爬虫，目标小说网站域名http://www.365kk.cc/，类似的小说网站殊途同归，均可采用本文方法爬取。
Python selenium的爬虫无法完整爬取整个页面的内容 python selenium 爬虫
2021-10-24 09:44

回答 1 已采纳爬取内容不完整，应该是文档的更多内容，要往下滑动页面才会出现这个不太清楚，应该不是什么反爬，就是类似于中途给你弹出个广告，要具体分析怎么弄VIP内容肯定是需要你的账号是VIP才能看得到的，与selen
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
Python爬虫 requests.post爬取json内容失败 ajax html5 json python
2020-12-25 10:40

回答 3 已采纳 res = requests.post(url,headers=headers,json=payload)
Python爬虫爬取视频_index.m3u8_ts.rar
2020-03-03 18:40

自己下载index.m3u8，给出网页基址然后自动下载ts，或者直接给出视频网页的地址（一般情况下，视频每一集的网页地址是有规律的，其视频所在标签会给出相应的m3u8文件的地址，需要调整一下程序），之后自行下载index....
Pandas借助Python爬虫爬取HTML网页表格保存到Excel文件的问题，解答。 python 有问必答
2021-09-20 23:00

回答 2 已采纳没有指定打开方式写为with open("./Gldjc_Pandas.txt","w+") as fin:即可有帮助望采纳~
python关于request的爬虫和对爬取的数据简单处理 python 其他
2021-06-23 17:41

回答 1 已采纳 df=pd.DataFrame(allUniv) #把数据放入csv文件 df100=df.loc[1:100] #增加一个中间变量 df100.to_csv('D:\\demo\\
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
python爬虫爬取百度图片总结_python爬虫如何批量爬取百度图片
2021-02-04 06:20

查勒斯的博客 python爬虫可以实现批量下载，根据我们下载网站位置、图片位置、图片下载数量、图片下载位置等需求进行批量下载，本文演示python爬虫批量爬取百度图片的代码过程。1、导入相关库importrequests#爬虫库importre#正则...
Python 问财网搜索界面新闻爬取 python 爬虫
2021-12-25 00:39

回答 7 已采纳先用postman 测试headers里面那些内容不是必须的。分析那些cookie 是浏览器生成的，那些是服务器返回的。去分析js当中浏览器生成cookie的生成代码抠出来，然后用PyExecJS 这
python爬虫（爬取图片）
2022-08-16 11:41

愈辩已忘言的博客 python爬虫，用来爬取图片，已彼岸为例，可以自行输入要爬取的起始页和终止页
python爬虫爬取多个页面_Python 爬虫爬取多页数据
2020-11-21 00:50

weixin_39583222的博客但是，按照常规的爬取方法是不可行的，因为数据是分页的：最关键的是，不管是第几页，浏览器地址栏都是不变的，所以每次爬虫只能爬取第一页数据。为了获取新数据的信息，点击F12，查看页面源代码，可以发现数据是...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月5日

悬赏问题

¥15 echarts动画效果失效的问题。官网下载的例子。
¥60 许可证msc licensing软件报错显示已有相同版本软件，但是下一步显示无法读取日志目录。
¥15 Attention is all you need 的代码运行
¥15 一个服务器已经有一个系统了如果用usb再装一个系统，原来的系统会被覆盖掉吗
¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时，终端显示出了sequence handled的进度条，但是并不出结果就自动终止回到命令提示行了是怎么回事：
¥15 前置放大电路与功率放大电路相连放大倍数出现问题
¥30 关于<main>标签页面跳转的问题
¥80 部署运行web自动化项目
¥15 腾讯云如何建立同一个项目中物模型之间的联系
¥30 VMware 云桌面水印如何添加

设计python爬虫，可是只爬取了index标签，不知道怎么回事

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新