Compare commits

...

10 Commits

Author SHA1 Message Date
wendell-dev
bb582ceac2 Update README.md 2019-05-08 10:39:08 +08:00
wendell-dev
aa6d2c006c Update README.md 2019-05-08 10:27:22 +08:00
wendell-dev
0af2294938 add requirements.txt 2019-05-08 09:44:13 +08:00
wendell-dev
4c9cf2df44 mongo数据库备份文件以压缩文件上传 2019-05-08 09:32:18 +08:00
wendell-dev
99172a7a75 删除源JSON文件,以压缩文件上传 2019-05-08 09:29:22 +08:00
wendell-dev
1858cd81af Update README.md 2019-05-08 09:00:55 +08:00
wendell-dev
b7187845f1 Update README.md 2019-05-07 20:45:36 +08:00
wendell-dev
25c273239d result json 2019-05-07 20:40:50 +08:00
wendell-dev
742864737a Update README.md 2019-05-07 20:40:28 +08:00
wendell-dev
7cdd514c2c Update README.md 2019-05-07 20:16:15 +08:00
4 changed files with 12 additions and 7 deletions

View File

@@ -1,8 +1,8 @@
# area-china
* 这是一个基于Python语言编写的爬虫项目针对中国省市区以及镇共5级行政区域数据的获取并建库
* 这是一个基于Python语言编写的爬虫项目针对中国省市区以及镇、街道、村、居委会等共5级行政区域数据的获取并建库
* 数据来源于国家统计局的统计用区划代码和城乡划分代码,每一年都会统计并发布上一年的数据
* 默认已经获取了2018年的5级行政区域全量数据在项目的result目录里结果类型有导出的excel文件与mongo数据库备份文件
* 默认已经获取了2018年的5级行政区域全量数据在项目的result目录里结果类型有导出的JSON文件与mongo数据库备份文件
* 统计用区划代码和城乡划分代码的区划范围,是国家统计局开展统计调查的区划范围
* 数据不包括我国台湾省、香港特别行政区、澳门特别行政区
* 级别
@@ -11,12 +11,12 @@
* 三级:市辖区、县(旗)、县级市、自治县(自治旗)、特区、林区
* 四级:镇、乡、民族乡、县辖区、街道
* 五级:村、居委会
* 本项目仅做学习用途
* 本项目仅做学习交流用途
# 项目结构
area-china
- result (可用结果,《2018年统计用区划代码和城乡划分代码(截止2018年10月31日)》)
- excel (Excel结果文件,内容为JSON格式)
- json (JSON结果文件)
- mongo (MongoDB数据库结果文件,可采用命令进行数据恢复)
- mongorestore -h <hostname><:port> -d dbname <path>
- source (程序源码目录)
@@ -29,10 +29,10 @@ area-china
| 二级 | 343 | - |
| 三级 | 3282 | - |
| 四级 | 43486 | - |
| 五级 | ****** | - |
| 五级 | 662814 | - |
# 数据库
* 采用MongoDB作为数据库服务程序运行后自动建立表简单方便快捷。
* 采用MongoDB作为数据库服务程序运行后自动建立表(collection),简单方便快捷。
# 数据库表及字段说明
@@ -109,4 +109,5 @@ area-china
2. source\area\china\city\CitySpider.py
3. source\area\china\city\CountySpider.py
4. source\area\china\city\TownSpider.py (大概运行一个小时左右跑完)
5. source\area\china\city\VillageSpider.py (这个运行时间较长,晚上跑起第二天来看吧)
5. source\area\china\city\VillageSpider.py (这个运行时间较长,晚上跑起第二天早上来看一般能够跑完)
* 如需更新库则可重新运行本程序,一般情况下一年运行一次即可,运行前先备份原有数据库再删除原有库以免数据重复

4
requirements.txt Normal file
View File

@@ -0,0 +1,4 @@
requests
pymongo
pyquery

Binary file not shown.

Binary file not shown.