第五次全國經(jīng)濟(jì)普查是一項(xiàng)重大的國情國力調(diào)查,也是一項(xiàng)龐大的社會系統(tǒng)工程,其中單位清查工作是經(jīng)濟(jì)普查工作的一項(xiàng)重要基礎(chǔ)性工作,是準(zhǔn)確界定普查對象類型、保障普查工作順利實(shí)施的關(guān)鍵。
清查底冊是進(jìn)行單位清查的重要支撐環(huán)節(jié),直接影響普查登記成效和數(shù)據(jù)質(zhì)量?!度珖?jīng)濟(jì)普查條例》《國務(wù)院關(guān)于開展第五次全國經(jīng)濟(jì)普查的通知》中明確提到在清查和正式普查開始前,需根據(jù)地方民政、稅務(wù)、市場監(jiān)管等具備單位設(shè)立審批、登記職能的部門提供的審批或者登記的單位資料,形成經(jīng)濟(jì)普查單位名錄。
清查底冊特征
1.重要程度高:清查底冊是單位清查的重要線索,清查之后形成的單位名錄是進(jìn)行正式普查的直接依據(jù),一份準(zhǔn)確詳細(xì)的單位名錄是普查工作取得成功的關(guān)鍵。
2.單位類型多樣:單位一般分為企業(yè)法人單位及產(chǎn)業(yè)單位、非企業(yè)法人單位(民政、編辦、教育等部門審批的非企業(yè)法人單位)和個體工商戶三種。
3.數(shù)據(jù)多源:清查底冊的來源局包括地方編制、民政、稅務(wù)、市場監(jiān)管以及其他具有單位設(shè)立審批、登記職能的部門,數(shù)出多源,信息重復(fù)率較高。
4.數(shù)據(jù)量大:各級政府部門提供的單位資料中普查對象數(shù)量、字段眾多,且各部門提供的資料具有一定重復(fù)率,整體清洗工作量較大。
5.清洗程序復(fù)雜:由于單位類型多樣、數(shù)出多源、數(shù)據(jù)量大等特征,清查工作程序需謹(jǐn)慎嚴(yán)密,保證數(shù)據(jù)信息不重不漏、盡可能多地保留有用信息,如地址、電話等。
工作方案
數(shù)喆數(shù)據(jù)作為國內(nèi)領(lǐng)先為數(shù)據(jù)要素市場提供全產(chǎn)業(yè)鏈技術(shù)服務(wù)的支撐機(jī)構(gòu),積極響應(yīng)和創(chuàng)新底冊清洗工作的方式方法,采用傳統(tǒng)手段與AI技術(shù)相結(jié)合的方式,為“五經(jīng)普”底冊清洗工作提供新思路。
一是數(shù)據(jù)整合。將基本單位名錄庫數(shù)據(jù)與民政、稅務(wù)、市場和編辦等行政單位提供的數(shù)據(jù)資料合并,確保單位清查底冊的“全面性”。
二是刪減剔重。對合并后的底冊進(jìn)行無效數(shù)據(jù)刪減、重復(fù)數(shù)據(jù)剔除,確保單位清查底冊的“準(zhǔn)確性”。
三是數(shù)據(jù)補(bǔ)充。利用我司內(nèi)外部數(shù)據(jù)資源,對底冊缺失數(shù)據(jù)進(jìn)行補(bǔ)充,確保單位清查底冊信息的“完整性”。
四是有序分割。將清查底冊按區(qū)縣進(jìn)行分割,確保單位清查底冊的“高效性”。
五是人機(jī)合審。利用單位清查比對程序以及人工審核,進(jìn)一步確保單位清查底冊的“精準(zhǔn)性”。
技術(shù)路線
制定清洗策略。充分研析數(shù)據(jù)邏輯關(guān)聯(lián)(包括主外鍵關(guān)聯(lián)關(guān)系、層級關(guān)系和條件關(guān)系),針對性的制定邏輯嚴(yán)密的清洗算法規(guī)則。
模型訓(xùn)練。利用Python、Java等工具引擎,搭建清洗環(huán)境,靈活嵌入邏輯規(guī)則和優(yōu)化算法,自動化地進(jìn)行多庫數(shù)據(jù)匹配、比對與集成,利用數(shù)據(jù)比對算法、NLP、AI等技術(shù)進(jìn)一步規(guī)范、修正以及效果驗(yàn)證,并進(jìn)一步判斷規(guī)則適用性。
數(shù)據(jù)驗(yàn)證與測試。對集成清洗后的數(shù)據(jù)進(jìn)行系統(tǒng)驗(yàn)證和測試,判斷清洗后的數(shù)據(jù)是否符合預(yù)期結(jié)果和業(yè)務(wù)邏輯,確保底冊數(shù)據(jù)的全面性、準(zhǔn)確性和可用性。
圖:技術(shù)路線
數(shù)喆優(yōu)勢:
成熟的清洗規(guī)則。數(shù)喆數(shù)據(jù)基于“四經(jīng)普”和“五經(jīng)普”試點(diǎn)工作經(jīng)驗(yàn),已形成適應(yīng)各地底冊清洗可復(fù)用的清洗規(guī)則,可供后續(xù)工作使用,提高工作效率。
自動化。利用靈活匹配代碼,自動化實(shí)現(xiàn)數(shù)據(jù)快速集成、識別、規(guī)范與修正。
高效性。數(shù)據(jù)比對模型、NLP文本處理等技術(shù)可以在短時間內(nèi)處理大規(guī)模的數(shù)據(jù)集,利用AI技術(shù)優(yōu)化模型算法,提高信息保有率。
準(zhǔn)確性。使用高級算法和模式識別能力,可以更準(zhǔn)確地檢測和修復(fù)數(shù)據(jù)中的問題。
方案可擴(kuò)展??焖俑咝峁┑胤蕉ㄖ苹變郧逑唇鉀Q方案。
來源:中華網(wǎng)
網(wǎng)站簡介 / 廣告服務(wù) / 聯(lián)系我們
主辦:華夏經(jīng)緯信息科技有限公司 版權(quán)所有 華夏經(jīng)緯網(wǎng)
Copyright 2001-2024 By 612g.cn