求问为啥导出的csv文件，网名那一列为什么数据重复

#主函数
import requests
from bs4 import BeautifulSoup
import pandas as pd
import openpyxl
#定义存储变量
mingzi=[]
nianling=[]
diqu=[]
hunyin=[]
shengao=[]
jieshao=[]
#获取网页源代码的函数
for i in range(75):
url='http://www.hongniang.com/index/search?sort=0&wh=0&sex=0&starage=1,2,3,4&province=%E6%B5%99%E6%B1%9F&city=0&marriage=0&edu=0&income=0&height=0&pro=0&house=0&child=0&xz=0&sx=0&mz=0&hometownprovince=0'+str(i)
request=requests.get(url)
html=request.text
#解析源代码，提取信息
soup=BeautifulSoup(html,'html.parser')
for info in soup.find_all('li',class_='pin'):
mingzi.append(info.find_all('div',class_='name')[0].text.replace('\n','')[0:])
nianling.append(info.find_all('span')[1].text)
diqu.append(info.find_all('span')[2].text)
hunyin.append(info.find_all('span')[3].text)
shengao.append(info.find_all('span')[4].text)
jieshao.append(info.find_all('div',class_='db')[0].text.replace('\t','').replace('\r','').replace('\n','').replace(' ','')[5:])
pd.DataFrame({'网名':mingzi,'年龄':nianling,'地区':diqu,'婚姻状况':hunyin,'身高':shengao,'介绍':jieshao})
data=pd.DataFrame({'网名':mingzi,'年龄':nianling,'地区':diqu,'婚姻状况':hunyin,'身高':shengao,'介绍':jieshao})
df = pd.DataFrame(data)
data.to_csv('爬虫数据.csv',encoding='utf-8',index=False)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2021-06-21 18:44
关注
mingzi.append(info.find_all('div',class_='name')[0].text.replace('\n','')[0:])这行你得到的数据是列表嵌套，与其他的不一样，所以在dataframe会有重复。修改这一行获取全是字符串的列表

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

求问为啥导出的csv文件，网名那一列为什么数据重复 python 有问必答
2021-06-21 18:39

回答 1 已采纳 mingzi.append(info.find_all('div',class_='name')[0].text.replace('\n','')[0:])这行你得到的数据是列表嵌套，与其他的不一样，
使用python导出Excel文件时为什么会多出一列从0开始的标签 python 有问必答
2021-10-02 23:08

回答 2 已采纳使用pandas.read_excel读取一个excel表格为一个df时，默认有一个以0开头的索引列，为行索引。如果要指定索引列，可用参数index_col=‘列名'或index=0。如有帮助，请采
怎么将Python的运行结果导出为csv格式？ python sklearn 有问必答
2021-12-01 11:17

回答 2 已采纳可以先转换为dataframe，再用to_csv保存即可。示例： import pandas as pd import numpy as np a=np.array([[2,3,4],[1,2,3]
【Python】python把数据转换为csv文件
2023-05-31 22:29

嵌入式职场的博客执行以上代码后，就会在当前目录下生成一个名为data.csv的CSV文件，并且该文件中已经写入了我们定义的数据列表中的内容。列表中的每个字符串，将其逐行写入到文件中，每个字符串后面加上一个换行符，以保证每个字符...
sqlserver2008将一个811列的表导出为csv文件 sql
2020-08-07 10:22

回答 6 已采纳用数据库专门的导出CSV函数
为什么用python 爬取数据到excel中300多行只剩下一行？ python vscode 开发语言有问必答
2021-08-01 12:32

回答 4 已采纳将写入文件语句放到循环外，加上列名并逐行写入，后面的代码可以这样写： #code with open('data/51job.csv','w') as f: f.write(','.join(
如何用Python导出特定格式的CSV文件 python 有问必答
2022-02-17 22:22

回答 2 已采纳用字符串拼接吧你题目的解答代码如下： import pandas as pd path1= 'D:\CS.dat'
python导出成csv_Python 导出csv及读取csv文件
2020-11-30 10:47

weixin_39927993的博客您现在的位置是：网站首页>>Python>>pythonPython 导出csv及读取csv文件发布时间：2018-11-06 10:16:18作者：wangjian浏览量：2553点赞量：0一：Python 导出csvPython对于csv文件的操作使用到的组件是Python自带的...
为什么read_csv读取后，原本为数值的数据类型变成了objects？ python
2021-01-07 13:17

回答 2 已采纳我发现问题所在了：那一列的下面结尾多出来一行字符串删掉之后，想用infer_objects()，但发现并没有用，所以最后只能用astype()。但是如果不连续的超过10列都被影响了，难道要把那
请问python如何读取csv文件某列时保留空值？ python 机器学习
2019-11-07 05:02

回答 4 已采纳你取了一列带空值的dataFrame，统计元素个数的时候用这个dict(data['Gender'].value_counts()) 就是默认去掉空值，那你画图也就没有空值了，你可以用这个：dic
python爬取基金净值导出CSV文件后中文显示乱码 python 有问必答
2022-02-14 15:47

回答 4 已采纳指定read_html的编码。 import pandas as pd import csv for i in range(1,2): url = 'https://fundf10.ea
python数据导出为csv文件
2018-07-08 16:49

Song_Lynn的博客 python数据导出为csv文件 1 介绍将 list 或 numpy.narray 类型的数据导出为csv文件（同理可扩展到导出为excel，即写入的文件格式为xls，且最后使用to_excel()方法） 2 包及相关方法 pandas -...
C# 将SQL数据导出为CSV文件，保存到textBox.text路径中 sql 开发语言
2021-04-22 19:19

回答 1 已采纳你要这么处理的话要先在那个路径下create一个csv文件，然后创建该文件流stream，然后StreamWriter sw = new StreamWriter(stream, System.Tex
python将csv文件转换为列表_如何将csv文件数据转换成列表？
2020-12-15 16:53

weixin_40006963的博客仍未解决的部分我正在尝试转换csv文件中存储的数据'存储.txt'以使我可以更有效地使用它很容易。就像目前，我的文件存储中的项目如下：Leroy,55349234,ok@gmail.comSatish,231355,no@hi.comKrut,6969,69@96.com我想...
python如何读csv文件中的某一列并转换为列表
2023-07-27 09:38

小孟lp的博客 python读csv文件中的某一列并转列表（pandas）
没有解决我的问题, 去提问

悬赏问题

¥20 matlab计算中误差
¥15 对于相关问题的求解与代码
¥15 ubuntu子系统密码忘记
¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料
¥15 使用R语言marginaleffects包进行边际效应图绘制
¥20 usb设备兼容性问题
¥15 错误(10048): “调用exui内部功能”库命令的参数“参数4”不能接受空数据。怎么解决啊

求问为啥导出的csv文件，网名那一列为什么数据重复

1条回答 默认 最新

悬赏问题

1条回答默认最新