繁體簡體

數(shù)喆數(shù)據(jù)底冊清洗技術助力“五經(jīng)普”單位清查工作高效開展

華夏經(jīng)緯網(wǎng) > 新聞 > 大陸新聞 > 社會綜合      2023-08-29 15:17:41

第五次全國經(jīng)濟普查是一項重大的國情國力調(diào)查,也是一項龐大的社會系統(tǒng)工程,其中單位清查工作是經(jīng)濟普查工作的一項重要基礎性工作,是準確界定普查對象類型、保障普查工作順利實施的關鍵。

清查底冊是進行單位清查的重要支撐環(huán)節(jié),直接影響普查登記成效和數(shù)據(jù)質(zhì)量?!度珖?jīng)濟普查條例》《國務院關于開展第五次全國經(jīng)濟普查的通知》中明確提到在清查和正式普查開始前,需根據(jù)地方民政、稅務、市場監(jiān)管等具備單位設立審批、登記職能的部門提供的審批或者登記的單位資料,形成經(jīng)濟普查單位名錄。

清查底冊特征

1.重要程度高:清查底冊是單位清查的重要線索,清查之后形成的單位名錄是進行正式普查的直接依據(jù),一份準確詳細的單位名錄是普查工作取得成功的關鍵。

2.單位類型多樣:單位一般分為企業(yè)法人單位及產(chǎn)業(yè)單位、非企業(yè)法人單位(民政、編辦、教育等部門審批的非企業(yè)法人單位)和個體工商戶三種。

3.數(shù)據(jù)多源:清查底冊的來源局包括地方編制、民政、稅務、市場監(jiān)管以及其他具有單位設立審批、登記職能的部門,數(shù)出多源,信息重復率較高。

4.數(shù)據(jù)量大:各級政府部門提供的單位資料中普查對象數(shù)量、字段眾多,且各部門提供的資料具有一定重復率,整體清洗工作量較大。

5.清洗程序復雜:由于單位類型多樣、數(shù)出多源、數(shù)據(jù)量大等特征,清查工作程序需謹慎嚴密,保證數(shù)據(jù)信息不重不漏、盡可能多地保留有用信息,如地址、電話等。

工作方案

數(shù)喆數(shù)據(jù)作為國內(nèi)領先為數(shù)據(jù)要素市場提供全產(chǎn)業(yè)鏈技術服務的支撐機構,積極響應和創(chuàng)新底冊清洗工作的方式方法,采用傳統(tǒng)手段與AI技術相結合的方式,為“五經(jīng)普”底冊清洗工作提供新思路。

一是數(shù)據(jù)整合。將基本單位名錄庫數(shù)據(jù)與民政、稅務、市場和編辦等行政單位提供的數(shù)據(jù)資料合并,確保單位清查底冊的“全面性”。

二是刪減剔重。對合并后的底冊進行無效數(shù)據(jù)刪減、重復數(shù)據(jù)剔除,確保單位清查底冊的“準確性”。

三是數(shù)據(jù)補充。利用我司內(nèi)外部數(shù)據(jù)資源,對底冊缺失數(shù)據(jù)進行補充,確保單位清查底冊信息的“完整性”。

四是有序分割。將清查底冊按區(qū)縣進行分割,確保單位清查底冊的“高效性”。

五是人機合審。利用單位清查比對程序以及人工審核,進一步確保單位清查底冊的“精準性”。

技術路線

制定清洗策略。充分研析數(shù)據(jù)邏輯關聯(lián)(包括主外鍵關聯(lián)關系、層級關系和條件關系),針對性的制定邏輯嚴密的清洗算法規(guī)則。

模型訓練。利用Python、Java等工具引擎,搭建清洗環(huán)境,靈活嵌入邏輯規(guī)則和優(yōu)化算法,自動化地進行多庫數(shù)據(jù)匹配、比對與集成,利用數(shù)據(jù)比對算法、NLP、AI等技術進一步規(guī)范、修正以及效果驗證,并進一步判斷規(guī)則適用性。

數(shù)據(jù)驗證與測試。對集成清洗后的數(shù)據(jù)進行系統(tǒng)驗證和測試,判斷清洗后的數(shù)據(jù)是否符合預期結果和業(yè)務邏輯,確保底冊數(shù)據(jù)的全面性、準確性和可用性。

圖:技術路線

數(shù)喆優(yōu)勢:

成熟的清洗規(guī)則。數(shù)喆數(shù)據(jù)基于“四經(jīng)普”和“五經(jīng)普”試點工作經(jīng)驗,已形成適應各地底冊清洗可復用的清洗規(guī)則,可供后續(xù)工作使用,提高工作效率。

自動化。利用靈活匹配代碼,自動化實現(xiàn)數(shù)據(jù)快速集成、識別、規(guī)范與修正。

高效性。數(shù)據(jù)比對模型、NLP文本處理等技術可以在短時間內(nèi)處理大規(guī)模的數(shù)據(jù)集,利用AI技術優(yōu)化模型算法,提高信息保有率。

準確性。使用高級算法和模式識別能力,可以更準確地檢測和修復數(shù)據(jù)中的問題。

方案可擴展??焖俑咝峁┑胤蕉ㄖ苹變郧逑唇鉀Q方案。

來源:中華網(wǎng)


責任編輯:侯哲
熱門評論
互聯(lián)網(wǎng)新聞信息服務許可證10120170072
京公網(wǎng)安備 11010502045281號
違法和不良信息舉報電話:010-65669841
舉報郵箱:xxjb@huaxia.com

網(wǎng)站簡介 / 廣告服務 / 聯(lián)系我們

主辦:華夏經(jīng)緯信息科技有限公司   版權所有 華夏經(jīng)緯網(wǎng)

Copyright 2001-2024 By 612g.cn