背景
毕设中证件识别模块需要用到身份证号码的智能匹配,该项目采用正则表达式来实现。
身份证分15位和18位的,那么这两个版本有什么区别呢?
第二代身份证,18位
XXXXXX yyyy MM dd 375 0
第一代身份证,15位
XXXXXX yy MM dd 75 0
从图片中可以看出,
1-6位为地区编码
7-10 出身年份 4位,第一代身份证只有两位
11-14 出身年月日 4位
15-18 顺序码+校验码 18位身份证4位,最后一位可能是X, 15位身份证顺序码3位,没有校验码
表达式
([1-9]\d{5}(18|19|([23]\d))\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx])
表达式介绍:
看18位的身份证正则:
[1-9]\d{5} 前六位地区,非0打头
(18|19|([23]\d))\d{2} 出身年份,覆盖范围为 1800-3999 年
((0[1-9])|(10|11|12)) 月份,01-12月
(([0-2][1-9])|10|20|30|31) 日期,01-31天
\d{3}[0-9Xx]: 顺序码三位 + 一位校验码
15位的身份证:
[1-9]\d{5} 前六位地区,非0打头
\d{2} 出生年份后两位00-99
((0[1-9])|(10|11|12)) 月份,01-12月
(([0-2][1-9])|10|20|30|31) 日期,01-31天
\d{3} 顺序码三位,没有校验码
提取程序
def person_ids_extract(text): # 识别多个身份证号结果
person_id = re.findall(
r"([1-9]\d{5}(18|19|([23]\d))\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx])", text)
per_ids = ""
if person_id:
matrix = numpy.array(person_id)
for i in matrix[:, 0]:
per_ids = per_ids + ' ' + "".join(tuple(i))
if(per_ids):
return per_ids
else:
return 'None'
def person_id_extract(text): # 识别单个身份证号结果
person_id = re.findall(
r"([1-9]\d{5}(18|19|([23]\d))\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx])", text)
if(person_id):
return person_id[0][0]
else:
return 'None'
不足
这个身份证表达式只是折中版本的校验,满足15位和18位身份证校验的基本需求了,但是还存在一些不足,网上有非常精确的身份证校验,但是代码太多,各种js
验证,参考资料链接中有提供。
地址码判定不够精确。例:我国并不存在16
,26
开头的地区,却可通过验证。
日期判定不够精确。例:19490231
也可通过验证,而2
月并不存在31
日,
校验码是由17
位本体码计算得出,方案1
并未校验此码。
ps
: 这个链接中的15位正则表达式错的,最后顺序码应该是3位。
参考资料:
https://tool.oschina.net/regex/#
https://www.ucloud.cn/yun/98409.html
https://zhidao.baidu.com/question/137181166694467805.html
https://blog.soarli.top/archives/510.html
https://c.runoob.com/front-end/854/
https://blog.csdn.net/liangxy2014/article/details/79315861
https://segmentfault.com/a/1190000016696368
https://juejin.cn/post/6844903575877861390
版权属于:soarli
本文链接:https://blog.soarli.top/archives/604.html
转载时须注明出处及本声明。