python 提取数据到新列,用pandas

图片说明

如图片,所示,如何提取楼栋里边的数字,到excel新列里边,分别提取到栋,单元,楼层三列里边,同时三列是通过python建立,不是手动建立的,有点复杂,求大神赐教。

3个回答

图片说明

 import pandas as pd
import re

df = pd.read_excel("Q696322.xlsx", sheet_name = 0)
df['栋'] = df.apply(lambda x: re.match("\\d+(?=栋)", x["楼栋"], re.M|re.I).group(), axis=1)
df['单元'] = df.apply(lambda x: re.match("\\d+[^\\d]+(\\d+)", x["楼栋"], re.M|re.I).group(1), axis=1)
df['门牌号'] = df.apply(lambda x: re.match("\\d+[^\\d]+\\d+[^\\d]+(\\d+)", x["楼栋"], re.M|re.I).group(1), axis=1)
df.to_excel("Q696322_result.xlsx")
print(df.head)

之前还回答了几个问题,如果问题解决,麻烦一并采纳,谢谢

darklinboxs
darklinboxs 好吧,如果是这几列写到另外一个新的表改怎么做呢?
大约一年之前 回复
caozhy
贵阳老马马善福专门编写代码的老马就是我! 回复darklinboxs: 新增加列直接df['列名']
大约一年之前 回复
darklinboxs
darklinboxs 大佬,你的列是怎么定位的比如我要填过几列写入,栋,单元,门牌号这几列。
大约一年之前 回复

用的vba实现的:

 Sub main()
    iRowFirst = 2     ' 数据第一行
    iRowLast = 5      ' 数据最后一行
    iColStr = 2       ' 楼栋字符串
    iColBuild = 3     ' 栋
    iColUnit = 4      ' 单元
    iColHouse = 5     ' 门牌号

    For i = iRowFirst To iRowLast
        strstr = Sheet1.Cells(i, iColStr)
        Sheet1.Cells(i, iColBuild) = Mid(strstr, 1, 1)
        Sheet1.Cells(i, iColUnit) = Mid(strstr, 3, 1)
        Sheet1.Cells(i, iColHouse) = Mid(strstr, 6)
    Next
End Sub

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
用pandas怎样提取数据的表头
[img=https://img-bbs.csdn.net/upload/201806/05/1528208189_568699.png][/img]rn如图所示例,假设,这是从一个.csv文件里面读取的数据,但是怎样提起出来这组数的每一列项的名称(红色框的内容)。rnrn谢谢,python新手,菜鸟,搜了挺多找不到相关的帖子,求助指导。rn多谢了!
pandas dataframe数据提取的方法
pandas dataframe数据提取
pandas系列学习(四):数据提取
作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai pandas系列学习(一):pandas入门 pandas系列学习(二):Series pandas系列学习(三):DataFrame pandas系列学习(四):数据提取 pandas 数据选择 有多种方法可以从 pandas DataFrame 中选择和索引行列。在这篇文章中,我们来讲一些高级的...
Python Pandas修改列类型
原文地址:http://www.zgljl2012.com/python-pandasxiu-gai-lie-lei-xing/ 使用astype如下: df[[column]] = df[[column]].astype(type) type即int、float等类型。 示例: import pandas as pd data = pd.DataFrame([[1, "2"...
Python数据扩展包之Pandas
官方文档:http://pandas.pydata.org/pandas-docs/stable/io.html 如果用 python 的列表和字典来作比较, 那么可以说 Numpy 是列表形式的,没有数值标签,而 Pandas 就是字典形式。Pandas是基于Numpy构建的,让Numpy为中心的应用变得更加简单。 pandas主要的数据结构:Series和DataFrame。 部分笔记:...
pandas数据新索引:reindex
DataFrame.reindex(labels=None, index=None, columns=None, axis=None, method=None, copy=True, level=None, fill_value=nan, limit=None, tolerance=None) 常用关键参数: method:插值填充方法 fill_value:引入缺失数据值 columns
Pandas之获取行和列的数据
Python数据分析是Python领域中的高阶课程,也是Python程序员熟练掌握Python的必学技能,学会此系列课程之后,就能够在纷繁杂乱的数据中分析出自己想要的数据。
pandas 快速添加行和列数据
第一种方式,直接插入一行: import pandas as pd from pandas import DataFrame df3=DataFrame(np.arange(16).reshape((4,4)),index=['a','b','c','d'],columns=['one','two','three','four']) # 新插入的行一定要加 index,不然会报错 d...
pandas 某列数据筛选
#将某一行的编码格式设置为 utf-8,支持中文显示和查找 stock_data['name'] = [i.encode('utf8') for i in stock_data['name']]#判断一列中的字符信息,并删除改行 for index,row in stock_data.iterrows(): if '退市'in row['name']: stock_da...
Pandas如何将Series的复合索引提取为列?
方法 1 :  TMP.groupby(['key1','key2'], as_index=False).sum() 方法 2 :除了在groupby时指定 as_index=False,也可以把Series变量用.reset_index()方法变成dataframe对象,这之后之前的Series的index就变成了dataframe的columns了
Python用pandas处理csv数据
用cmd命令获取当前文件夹下所有文件名列表 来到当前目录下,在地址栏输入cmd进入当前目录dir …/b>aaaa.txt
pandas通过loc生成新的列
pandas中一个很便捷的使用方法通过loc、iloc、ix等索引方式,这里记录一下: df.loc[条件,新增列] = 赋初始值 如果新增列名为已有列名,则在原来的数据列上改变 import pandas as pd import numpy as np data = pd.DataFrame(np.random.randint(0,100,40).reshape(10,4),colu...
pandas切割字符串并保存为新列
如果只想切割字符串,不保存为新的列,可以直接使用: series = data['列名'].str.split(',') #按","进行切分 如果要保存为新列,则需要: df = data['列名'].str.split(',',expand=True) #按","进行切分 注意:如果原字符串是:a\b\c 这样,想要根据反斜杠切分时,需要使用: data['列名'].str.sp...
python 提取文件指定列
之前用featureCount 处理得到结果,要提出第一列gene_id 和 readcount 列,首先软件输出的第一行默认是你使用的命令行,没有用,用bash批量删掉。 for i in `ls`;do sed -i '1d' $i;done 删除当前文件夹下所有文件第一行。 其实提出两列很简单,不过我受够了每次一个文件执行一次的烦。想搞成别的程序调用时命令行参数直接就行。第一次知道sy
python pandas常用数据处理方法
pandas 1、header = 0 不同于 header = None header = 0 表示 第0行为列 header = None 表示读取的时候 认为没有标题,全是数据 可以用 skiprows = 1 跳过列名 2、pandas 获取指定的行列数据 df.iloc[0:2,[0,3]] #读取 第 [0,2)行的第[0,3)列 3、创建 df = DataFr...
python pandas 处理日期数据
数据类型及操作 Python 标准库的datetime datetime模块中的datetime,time,calendar等类都可以用来存储时间类型以及一些其他转换与运算 for example: from datetime import datetime now=datetime.now() print now   #2016-09-11 16:02:
python pandas 的字符数据的处理方法
以前处理字符数据时总是习惯性用readline,数据分析时才用pandas,原来pandas时也有字符的处理方法,大多数和str相似,只是加上了Series。Series.str 如:data['列名'].str.split(','),data['列名'].str.replace(',','-')等 Series.str.capitalize() 首字母大写 Series.str.cat([...
Python 之 Pandas (二)选择数据
代码:import numpy as np import pandas as pd dates = pd.date_range('20130101', periods=6) df = pd.DataFrame(np.arange(24).reshape((6, 4)), index=dates, columns=['A', 'B', 'C', 'D']) print(df) # 输出列 prin...
Python 之 Pandas (三)选择数据
代码:import numpy as np import pandas as pd dates = pd.date_range('20130101', periods=6) df = pd.DataFrame(np.arange(24).reshape((6, 4)), index=dates, columns=['A', 'B', 'C', 'D']) print(df) df.iloc[2,...
python之pandas使用:数据的选择
导入文件 data =  pd.read_csv('文件名')不能含有中文 data =  pd.read_excel('文件名') 创建DataFrame数据 data = pd.DataFrame(np.random.randn(3,4)) 数据的选择 1 2 3 4 5 df.iloc[3] #选取第3行
python的pandas处理数据第一次
一、这是kaggle上面的泰坦尼克号题,看帖子上有数据探索过程,照着做了一下,感觉跟R差不多,应该是我还没有深入学吧。 二、matplotlib的作图子包pyplot先学一下,plt.figure()是定义一个图像,再用figure.add_subplot()方法增加子图,设置图的排列顺序。 import pandas as pd import matplotlib.pyplot as pl
指定行、列数据的提取???
怎么得到指定行、指定列的数据?rn比如得到第一列(单号)的最后一行的数据??
怎么样提取某列的数据?
我有一个数据表HOTEL,里面有这样一些数据:rnHotelID HotelName HotelCityrn1 tt 上海rn2 dd 上海rn3 jj 武汉rn4 kk 武汉rn5 dd 北京rn6 kk 北京rn我现在想实现这样一个功能:让数据表里的HotelCity显示出来,显示成这样的:rn上海 武汉 北京rn这样我点一点这些地方,就可以查询出这些地方的酒店了.问题是:我怎么取出这些城市呢?用SQL语句
python 提取sqlit数据
人脸检测,提供的数据库是sqlite格式,而且数据分散在几个table中,提取需要的数据到txt中。 用专门的软件查看数据格式。但导出不能为直接为txt。可以先导成其他格式再转成txt。可这种方式还不如直接转成。 python中有专门处理sqlite的库。 代码如下: import sqlite3 with sqlite3.connect('aflw.sqlite') a
python导入数据与提取数据
目标:从步长为1,提取步长为40的数据,存入 .txt 文件 code: #!/usr/bin/env python2 # -*- coding: utf-8 -*- """ Created on Thu Apr 26 07:35:28 2018 @author: luoluo """ f = open('2WI_PM_3DP.txt','r') lines = f.readline...
python 爬虫 数据提取
结构化数据 类似于动态加载的 先有结构后有数据 json 非结构化数据 现有数据 后有结构 正则 个人感觉,正则是匹配数据最快的,但也是最难的。 之前写过正则的匹配,这里就不多说了。 Xpath 表达式 描述 / 从根节点开始 // 从匹配选择的当前节点选择文档中的节点,不考节点虑位置 . 选取当前节点 … 选取当前节点的父节点 /bookstore/book[1...
Python提取数据
Python提取数据python提取数据 目前实现的代码:import redef read_write_file(in_file_path, out_file_path, reg_expression, line_per_loop): in_file = open(in_file_path) out_file = open(out_file_path, "a") #pat
Python之数据提取
一、xpath语法与xml库 二、BeautifulSoup4库 三、正则表达式和re模块
python——数据提取,处理
#读入表 import pandas as pd urls = pd.read_csv("/home/kong/Desktop/url.csv") #print(urls.shape)    #输出表的大小 nrow = urls.shape[0] #输出行数 同理,列数——shape[1] print(nrow) print(urls.values[0][0]) #输出指定...
python数据提取方法
# json #数据交换格式,看起来像python格式(字典、列表)类型的字符串 使用前需要import json 哪里会返回json数据? 1.浏览器切换到手机版 2.抓包app json.loads #把json字符串转化成python类型 json.loads(json字符串) json.dumps # 把python 类型转化为json字符串 json.du...
Python:提取网页数据
要把网页的内容提取到程序中,以便处理,只要通过模块requests就可以了。requests模块不是Python的默认模块,所以在使用它之前,需要在系统中执行安装"pip install requests"才可以导入到程序中。 示例: import requests url = 'http://www.moe.gov.cn/jyb_xxgk/' #url='http://zfxxgk.ndrc
利用pandas批量提取文件数据
先上公式 import time import math import os import sys import os, os.path,shutil import pandas as pd import numpy as np #os.chidr()方法用于改变当前工作目录到指定的路径 os.chdir(r'C:\Users\zzhbq034\Desktop\123\河北赔付率计算\承保清...
Pandas应用于数据提取的一些小知识
import pandas as pddf = pd.read_csv( )# 默认显示列表数据的前5行df.head( )
pandas wind 数据提取简单demo
#!/usr/bin/env python #coding:utf-8 from WindPy import w from datetime import datetime from pandas import Series from pandas import DataFrame import glob import os import pdb import csv import sys de
数据提取(2):pandas库入门
Pandas库 http://pandas.pydata.org Pandas是Python第三方库,提供高性能易用数据类型和分析工具。 import pandas as pd 数据类型:Series, DataFrame 基于数据类型的各类操作:基本操作、运算操作、特征类操作、关联类操作 Numpy:     基础数据类型:ndarray;
python pandas用均值去填充该行/列的空值
利用各行/各列的均值去填充空值 参考: 1:python—创建字典的方式 2:pandas.DataFrame.fillna¶ 利用各行/各列的均值去填充空值   以列为例,简单来说,填充时指定各列填充的值为各列的均值就好了。对行的操作,要注意操作时参数要改成行。 values = dict([(col_name, col_mean) for col_name, col_mean in zip(g...
python | pandas 改变列的位置、填充缺失值
本期的文章源于工作中,需要固定label的位置,便于在spark模型中添加或删除特征,而不影响模型的框架或代码。 spark的jupyter下使用sql 这是我的工作环境的下情况,对你读者的情况,需要具体分析。 sql = ''' select * from tables_names -- hdfs下的表名 where 条件判断 ''' Data = DB.i
python : pandas 画移动平均线 新的代码
python 3.7 , pandas 0.23 以上 数据文件 660001.csv 内容格式: 日期,基金净值,累计净值 date,jz,ljjz 2016-01-04,2.4990,3.0990 2016-01-05,2.4277,3.0277 ... ...  2019-02-12,1.8362,2.4362 2019-02-13,1.8589,2.4589 pd_roll_mean_i...
python 用pandas,实现贝叶斯分类
从51找工作网上爬去数据存储在51.txt中,分为4列,分别为职业,地址,工资最大值和工资最小值。计算: p(北京|java,min=1w)=p(北京)p(java|北京)p(min=1w|北京) 目的: 分别求出p(北京),p(java|北京),p(min=1w|北京) 这三个的概率 条件 问题一:找不到python 1.进入cmd命令 2.查看python安装路径:where python ...
【Pandas】Pandas数据分类
分类是与统计中的分类变量对应的pandas数据类型。分类变量采用有限的,通常是固定的可能值(类别 ; R中的级别)。例如性别,社会阶层,血型,国家归属,观察时间或通过李克特量表评级。 与统计分类变量相比,分类数据可能有一个顺序(例如“强烈同意”与“同意”或“第一次观察”与“第二次观察”),但数值运算(加法,除法......)是不可能的。 分类数据的所有值都是类别或np.nan。顺序由类别的顺序...
相关热词 c# stream 复制 android c# c#监测窗口句柄 c# md5 引用 c# 判断tabtip 自己写个浏览器程序c# c# 字符串变成整数数组 c#语言编程写出一个方法 c# 转盘抽奖 c#选中treeview