做爬虫,爬取每个省份的信息,这里只爬取到了每个省份,以及一二线热门城市的信息,三四线以及更往下的城市信息没有。但是,希望能通过省份以及一二线城市的信息,推出三四线及以下城市的信息。具体的,与技术无关,就不多说了。
一张表,有如下几个字段。
id,city,province,gender,number,date。分别表示序号,城市名,省,性别,数量,日期。
假设有如下数据:
1,上海,上海,男,200 //上海属于直辖市,所以城市和省份是一样的。
2,上海,上海,女,300
3,深圳,广东,男,210 //广东下面,广州和深圳两个大城市,佛山什么的,就没有了。
4,深圳,广东,女,211
5,广州,广东,男,111
6,广州,广东,女,222
7,广东,广东,男,2000 //这是广东总的数量
8,广东,广东,女,1999
9,合肥,安徽,男,99 //安徽下面,合肥属于二线城市,其他诸如六安,阜阳没有数据
10,合肥,安徽,女,100
11,安徽,安徽,男,500
12,安徽,安徽,女,450
如果我想知道,广东省除去深圳和广州以外省份的数量的话,该怎么办?手动,当然可以,直接拿广东男减去深圳男以及广州男,就可以了,女生同样,但是会比较麻烦,毕竟全国那么多省份。
注意:有些省份没有一二线城市,比如新疆,甘肃,有些省份可能有多个……
当然目前这是一张表,如果需要,也可以分成两张表,省份单独一张,下面热门城市另外一张……