Compare commits
10 Commits
8ce5063ec3
...
bb582ceac2
| Author | SHA1 | Date | |
|---|---|---|---|
|
|
bb582ceac2 | ||
|
|
aa6d2c006c | ||
|
|
0af2294938 | ||
|
|
4c9cf2df44 | ||
|
|
99172a7a75 | ||
|
|
1858cd81af | ||
|
|
b7187845f1 | ||
|
|
25c273239d | ||
|
|
742864737a | ||
|
|
7cdd514c2c |
15
README.md
15
README.md
@@ -1,8 +1,8 @@
|
||||
# area-china
|
||||
|
||||
* 这是一个基于Python语言编写的爬虫项目,针对中国省市区以及镇乡共5级行政区域数据的获取并建库
|
||||
* 这是一个基于Python语言编写的爬虫项目,针对中国省市区以及镇、街道、村、居委会等共5级行政区域数据的获取并建库
|
||||
* 数据来源于国家统计局的统计用区划代码和城乡划分代码,每一年都会统计并发布上一年的数据
|
||||
* 默认已经获取了2018年的5级行政区域全量数据,在项目的result目录里,结果类型有导出的excel文件与mongo数据库备份文件
|
||||
* 默认已经获取了2018年的5级行政区域全量数据,在项目的result目录里,结果类型有导出的JSON文件与mongo数据库备份文件
|
||||
* 统计用区划代码和城乡划分代码的区划范围,是国家统计局开展统计调查的区划范围
|
||||
* 数据不包括我国台湾省、香港特别行政区、澳门特别行政区
|
||||
* 级别
|
||||
@@ -11,12 +11,12 @@
|
||||
* 三级:市辖区、县(旗)、县级市、自治县(自治旗)、特区、林区
|
||||
* 四级:镇、乡、民族乡、县辖区、街道
|
||||
* 五级:村、居委会
|
||||
* 本项目仅做学习用途
|
||||
* 本项目仅做学习交流用途
|
||||
|
||||
# 项目结构
|
||||
area-china
|
||||
- result (可用结果,《2018年统计用区划代码和城乡划分代码(截止2018年10月31日)》)
|
||||
- excel (Excel结果文件,内容为JSON格式)
|
||||
- json (JSON结果文件)
|
||||
- mongo (MongoDB数据库结果文件,可采用命令进行数据恢复)
|
||||
- mongorestore -h <hostname><:port> -d dbname <path>
|
||||
- source (程序源码目录)
|
||||
@@ -29,10 +29,10 @@ area-china
|
||||
| 二级 | 343 | - |
|
||||
| 三级 | 3282 | - |
|
||||
| 四级 | 43486 | - |
|
||||
| 五级 | ****** | - |
|
||||
| 五级 | 662814 | - |
|
||||
|
||||
# 数据库
|
||||
* 采用MongoDB作为数据库服务,程序运行后自动建立表,简单方便快捷。
|
||||
* 采用MongoDB作为数据库服务,程序运行后自动建立表(collection),简单方便快捷。
|
||||
|
||||
# 数据库表及字段说明
|
||||
|
||||
@@ -109,4 +109,5 @@ area-china
|
||||
2. source\area\china\city\CitySpider.py
|
||||
3. source\area\china\city\CountySpider.py
|
||||
4. source\area\china\city\TownSpider.py (大概运行一个小时左右跑完)
|
||||
5. source\area\china\city\VillageSpider.py (这个运行时间较长,晚上跑起第二天来看吧)
|
||||
5. source\area\china\city\VillageSpider.py (这个运行时间较长,晚上跑起第二天早上来看一般能够跑完)
|
||||
* 如需更新库则可重新运行本程序,一般情况下一年运行一次即可,运行前先备份原有数据库再删除原有库以免数据重复
|
||||
4
requirements.txt
Normal file
4
requirements.txt
Normal file
@@ -0,0 +1,4 @@
|
||||
requests
|
||||
pymongo
|
||||
pyquery
|
||||
|
||||
BIN
result/json/area-china-json.rar
Normal file
BIN
result/json/area-china-json.rar
Normal file
Binary file not shown.
BIN
result/mongo/dump/python/area-china-mongo.rar
Normal file
BIN
result/mongo/dump/python/area-china-mongo.rar
Normal file
Binary file not shown.
Reference in New Issue
Block a user