需要对一个大概有5、6万行的公司(公司名没有重复,是唯一识别的key)的工商信息数据,包括企业地址、电话等进行整理,方便后续整理出公司的特征标签进一步去建模和分析。
我的解答思路和尝试过的方法(见附件示例):
- 如果用excel,就是用pivot table ,对应筛选不同维度下多于一家公司的情况,如,某个电话号码下,有多于一家公司,就对这个电话手动打上标签—”一个电话号码有多家公司“、诸如此类,同一个地址下有多家公司就是”同一企业地址有多家公司“
样本数据表:
公司名称 | 电话 | 邮箱 | 企业地址 | 手动标签(额外根据Pivot标的不是源数据) |
---|---|---|---|---|
北京X1餐饮管理有限公司 | 15810v999 | 290486v4@qq.com | 北京市海淀区Xt平房 | 同一地址多家公司 |
天津市南星区xx2餐饮管理服务部 | 15810v99 | 290486v4@qq.com | 天津市南开区ABCDEFG 731 | |
北京X3有限公司 | 77777999900 | 7xbtyb7@qq.com | 北京市顺义区& | 同一电话有多家公司共用 |
北京星餐饮发展有限公司 | 0108*9859 | 1b90865b0@163.com | 北京市朝阳区X2号 | |
北京风餐饮管理有限公司 | 135&&199990 | 135&&199990@qq.com | 北京市海淀区Xt平房 | 同一地址多家公司 |
青岛肉餐饮有限公司 | 77777999900 | 青岛市1888号 | 同一电话有多家公司共用,同一地址多家公司 | |
青岛汪珠江路分公司 | 135111199990 | None | 青岛市1888号 | 同一地址多家公司 |
深圳市坪山区好大一家酒楼 | None | None | 深圳市坪山区aa号101 | 同一地址多家公司 |
深圳热热闹闹酒家有限公司 | 0755-9990055323 | 634590909@qq.com | 深圳市坪山区aa号101 | 同一电话有多家公司共用 |
深圳市味*vba餐饮管理有限公司 | 1v90865v0 | 1v90865v0 @163.com | 深圳市龙岗区公园401-COCOPAR | |
深圳市品鉴赏好物餐饮管理有限公司 | None | None | 深圳市南山区流溪河大院 | 同一地址多家公司 |
深圳市来又来不走餐饮有限公司 | None | None | 深圳市南山区流溪河大院 | 同一地址多家公司 |
深圳市福田区俊*vnb酒楼 | None | None | 深圳市福田区南方公园 | 同一地址多家公司 |
深圳市聚好价餐饮有限公司 | 0755-9990055323 | 227v876@qq.com | 深圳市福田区南方公园 | 同一地址多家公司,同一电话有多家公司共用 |
深圳市巨便宜酒楼有限公司 | None | None | 深圳市光明区奉还工业大门 |
因为有几万行,excel操作也很繁琐,后面还要重复做好几次的抽样分析,所以希望求一个python的处理方法,便于后续批量操作,要求:各列分别分析,标签(即”同一电话多家公司共用“,分别生成单独的列),最后所有列统一到一个表格输出
,