python爬虫存入excel却只重复第一行信息

请问各位，python爬取网页信息的时候，print出来的都是对的，但是存入excel却全都是重复的第一行信息是怎么回事啊

driver = webdriver.Chrome()

driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument",{
  "source": """
    Object.defineProperty(navigator, 'webdriver', {
      get: () => undefined
    })
  """
})

driver.get('https://kns.cnki.net/kns8/defaultresult/index')
time.sleep(1)
driver.find_element(By.ID,"txt_search").send_keys('福建妇女')   # .send_keys()  向搜索框中输入内容
driver.find_element(By.CLASS_NAME,"search-btn").click()       # .click() 代表点击动作
time.sleep(1)
datalist = []
# html = driver.page_source
# print(html)
while True:

    trs = driver.find_elements(By.XPATH,"//table[@class='result-table-list']/tbody/tr")
    for tr in trs:

        # 序号
        order = tr.find_element(By.XPATH,"./td[@class='seq']").text
        print(order)
        datalist.append(order)
        # 题目
        title = tr.find_element(By.XPATH,"./td[@class='name']").text
        print(title)
        datalist.append(title)
        # 论文链接
        href = tr.find_element(By.XPATH,"./td[@class='name']/a").get_attribute('href')
        print(href)
        datalist.append(href)
        # 作者

        author = tr.find_element(By.XPATH,"./td[@class='author']").text
        print(author)
        datalist.append(author)


        # 来源
        source = tr.find_element(By.XPATH,"./td[@class='source']").text
        print(source)
        datalist.append(source)
        # 发表时间
        pubtime = tr.find_element(By.XPATH,"./td[@class='date']").text
        print(pubtime)
        datalist.append(pubtime)
        # 发表类别
        category = tr.find_element(By.XPATH,"./td[@class='data']").text
        print(category)
        datalist.append(category)



    # 下一页
    try:
        next = driver.find_element(By.ID,"PageNext").click()
        time.sleep(2)
        html = driver.page_source
        print(html)
    except:
        print("没有下一页了")
        break

driver.quit()


print("saving")
workbook = xlwt.Workbook(encoding="utf-8")
worksheet = workbook.add_sheet('sheet1',cell_overwrite_ok=True)
col = ("序号","题目","链接","作者","来源","发表时间","类别")
for i in range(0,7):
    worksheet.write(0,i,col[i])
for i in range(0,180):
    # print("第%d条" %(i+1))
    datalist2 = datalist[i]
    for j in range(0,7):
        worksheet.write(i+1,j,datalist2[j])
   
workbook.save("zhiwang2.xls")

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

梦里逆天 2022-09-15 22:35

关注

import time

import xlwt as xlwt
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

# driver = webdriver.Chrome()
service = Service(r"D:\chromedriver.exe")
driver = webdriver.Chrome(service=service)
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
    "source": """
    Object.defineProperty(navigator, 'webdriver', {
      get: () => undefined
    })
  """
})

driver.get('https://kns.cnki.net/kns8/defaultresult/index')
time.sleep(1)
driver.find_element(By.ID, "txt_search").send_keys('福建妇女')  # .send_keys()  向搜索框中输入内容
driver.find_element(By.CLASS_NAME, "search-btn").click()  # .click() 代表点击动作
time.sleep(1)
datalist = []
# html = driver.page_source
# print(html)
while True:
    trs = driver.find_elements(By.XPATH, "//table[@class='result-table-list']/tbody/tr")
    for tr in trs:
        # 序号
        order = tr.find_element(By.XPATH, "./td[@class='seq']").text
        print(order)
        # datalist.append(order)
        # 题目
        title = tr.find_element(By.XPATH, "./td[@class='name']").text
        print(title)
        # datalist.append(title)
        # 论文链接
        href = tr.find_element(By.XPATH, "./td[@class='name']/a").get_attribute('href')
        print(href)
        # datalist.append(href)
        # 作者
        author = tr.find_element(By.XPATH, "./td[@class='author']").text
        print(author)
        # datalist.append(author)
        # 来源
        source = tr.find_element(By.XPATH, "./td[@class='source']").text
        print(source)
        # datalist.append(source)
        # 发表时间
        pubtime = tr.find_element(By.XPATH, "./td[@class='date']").text
        print(pubtime)
        # datalist.append(pubtime)
        # 发表类别
        category = tr.find_element(By.XPATH, "./td[@class='data']").text
        print(category)
        # datalist.append(category)
        datalist.append([order, title, href, author, source, pubtime, category])
    # 下一页
    try:
        driver.find_element(By.ID, "PageNext").click()
        time.sleep(2)
        html = driver.page_source
        print(html)
    except:
        print("没有下一页了")
        break

driver.quit()

print("saving")
print(datalist)
workbook = xlwt.Workbook(encoding="utf-8")
worksheet = workbook.add_sheet('sheet1', cell_overwrite_ok=True)
col = ("序号", "题目", "链接", "作者", "来源", "发表时间", "类别")
for i in range(0, 7):
    worksheet.write(0, i, col[i])
for i in range(len(datalist)):
    datalist2 = datalist[i]
    for j in range(0, 7):
        worksheet.write(i + 1, j, datalist2[j])

workbook.save("zhiwang2.xls")

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

Python项目开发实战_网络爬虫批量采集股票数据保存到Excel中_编程案例实例课程教程.pdf
2023-05-02 16:41

案例分为两个主要步骤：第一步是获取所有上市公司的股票代码，第二步是根据股票代码分别爬取每个公司的具体股票数据。这两个步骤可以通过两个独立的Python脚本来实现。在爬取股票代码的过程中，我们首先访问提供...
Python爬虫学习笔记_DAY_32_Python爬虫之Excel表的读写【Python爬虫】
2022-03-01 22:36

跳探戈的小龙虾的博客本篇是爬虫基础学习笔记的最后一篇，主要围绕着一个小的遗留点：关于python读写Excel的方式，这在爬虫中用途也很广泛。本篇将通过简单的实例对Excel的读写进行讲解，对比已有的同类文章所出现的内容过于复杂的问题...
【Python高级编程案例】-第29课时-Python 爬虫数据存储
2024-09-25 09:10

青少年编程作品集的博客通过爬虫解析出网页数据之后，就要对数据进行存储。保存的形式多种多样，最简单的形式是保存为文本形式，如TXT、JSON、CSV、XLSX等。另外还可以保存在数据库之中，如关系型数据库MySQL，非关系型数据库MongoDB、...
Python 实战：爬虫抓取网站数据处理后存入Excel表
2020-12-30 15:57

pwy1198156945的博客 Python是我接触过的，相比C++、java，是一门非常简单的编程语言。对于办公室白领，在未来是一门必须掌握的技巧，可以帮你自动化处理数据。废话少说，上干货! 本期主要给大家分享一个我工作中的一次使用，希望对你...
Python爬虫示例01：网页数据采集至Excel
2024-02-22 22:09

棠梨煎雪灬的博客 Python爬虫示例01：网页数据采集至Excel 文章目录 Python爬虫示例01：网页数据采集至Excel 写在前面一、问题描述二、编程思路 `参考网站名称` 写在前面使用目的：避免繁琐网页浏览工作，提高工作效率声明：请勿...
Python爬虫——网站基本信息
2024-10-26 18:25

IT·小灰灰的博客 Python是一种广泛使用的高级编程语言，它以其清晰的语法和代码可读性而闻名。Python支持多种编程范式，包括面向对象、命令式、函数式和过程式编程。易于学习和使用：Python 有一个非常简洁的语法，这使得它成为初学...
Python项目开发实战：网络爬虫批量采集股票数据保存到Excel中
2024-04-24 09:07

好知识传播者的博客在Python项目开发实战中，网络爬虫批量采集股票数据并保存到Excel文件，是一种高效、定制化的数据获取与管理方式。本节将详细阐述该过程的特点、步骤、优化策略以及应用价值。
写一个python爬虫程序，可以从网站上抓取数据并保存到excel文件中
2023-02-13 00:07

Clown爱电脑的博客可以使用第三方库requests和pandas实现这个功能。首先使用requests库发送请求获取网页数据，然后使用pandas将数据保存到excel文件中。下面是一个简单的示例代码： import requests import pandas as pd # 发送...
python spider, 爬虫练习用
2024-01-11 08:26

本压缩包文件"spider-master"显然是一个关于Python爬虫的实践项目，可能包含了一系列的爬虫脚本、教程资料或者练习案例。 Python作为一门语法简洁、易学的编程语言，被广泛用于编写爬虫程序。其核心库如`requests`...
Python获取Excel内容
2024-08-05 10:26

Az_plus的博客使用pandas和openpyxl获取Excel信息
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月15日

python爬虫存入excel却只重复第一行信息

请问各位，python爬取网页信息的时候，print出来的都是对的，但是存入excel却全都是重复的第一行信息是怎么回事啊

1条回答 默认 最新

问题事件

1条回答默认最新