Gagnastöðlun: Skilgreindu, prófaðu og umbreyttu

Gagnastöðlun

Þó að stofnanir færist í átt að því að koma á gagnamenningu í fyrirtækinu, eru margir enn í erfiðleikum með að koma gögnum sínum á réttan kjöl. Að draga gögn frá ólíkum aðilum og fá mismunandi snið og framsetningu á því sem eiga að vera sömu upplýsingar - veldur alvarlegum vegatálmum í gagnaferð þinni.

Teymi upplifa tafir og mistök á meðan þeir framkvæma venjulegar aðgerðir eða draga innsýn úr gagnasöfnum. Slík vandamál þvinga fyrirtæki til að innleiða gagnastöðlunarkerfi - sem tryggir að gögn séu til staðar í samræmdu og samræmdu sjónarhorni í stofnuninni. 

Við skulum skoða gagnastöðlunarferlið dýpra: hvað það þýðir, skrefin sem það felur í sér og hvernig þú getur náð stöðluðu gagnayfirliti í fyrirtækinu þínu.

Hvað er gagnastöðlun?

Einfaldlega sagt, gagnastöðlun er ferlið við að breyta gagnagildum úr röngu sniði í rétt. Til að virkja staðlaða, samræmda og samræmda gagnasýn yfir stofnunina verða gagnagildin að vera í samræmi við nauðsynlegan staðal – í samhengi við gagnasviðin sem þau tilheyra.

Dæmi um villur í stöðlun gagna

Til dæmis ætti skrá sama viðskiptavinar, sem býr á tveimur mismunandi stöðum, ekki að innihalda misræmi í fornafni og eftirnafni, netfangi, símanúmeri og heimilisfangi:

heiti Netfang Símanúmer Fæðingardagur Kyn Heimilisfang
Jón Oneel john.neal@gmail.com 5164659494 14 / 2 / 1987 M 11400 W Olimpic BL # 200
Heimild 1

Fyrsta nafn Eftirnafn Netfang Símanúmer Fæðingardagur Kyn Heimilisfang
John O'neal john.neal_gmail.com + 1 516-465-9494 2 / 14 / 1987 male 11400 W Olympic 200
Heimild 2

Í dæminu hér að ofan geturðu séð eftirfarandi tegundir ósamræmis:

 1. Uppbygging: Fyrsta heimildin nær yfir Nafn viðskiptavinar sem einn reit, en sú seinni geymir það sem tvo reiti - Fornafn og Eftirnafn.
 2. Mynstur: Fyrsta heimildin hefur a gilt tölvupóstmynstur framfylgt á netfangareitinn, en sá seinni vantar greinilega @ tákn. 
 3. Tegund gagna: Fyrsta heimildin leyfir aðeins tölustafi í reitnum Símanúmer, en sú síðari hefur strengjagerð sem inniheldur einnig tákn og bil.
 4. Snið: Fyrsta heimildin hefur fæðingardaginn á sniðinu MM/DD/ÁÁÁÁ, en sú seinni hefur það á sniðinu DD/MM/ÁÁÁÁ. 
 5. Lénsgildi: Fyrsta heimildin gerir kleift að geyma kyngildi sem M eða F, en önnur heimildin geymir allt eyðublaðið - karl eða kona.

Slíkt ósamræmi í gögnum leiðir til þess að þú gerir alvarleg mistök sem geta valdið því að fyrirtæki þitt tapi miklum tíma, kostnaði og fyrirhöfn. Af þessum sökum, innleiða end-to-end kerfi fyrir stöðlun gagna er mikilvægt til að viðhalda hreinlæti gagna þinna.

Hvernig á að staðla gögn?

Gagnastöðlun er einfalt fjögurra þrepa ferli. En það fer eftir eðli ósamræmis í gögnunum þínum og því sem þú ert að reyna að ná fram, aðferðir og tækni sem notuð eru við stöðlun geta verið mismunandi. Hér kynnum við almenna þumalputtareglu sem hvaða stofnun getur notað til að vinna bug á stöðlunarvillum sínum. 

 1. Skilgreindu hver staðallinn er

Til að ná hvaða ríki sem er verður þú fyrst að skilgreina hvað ríkið er í raun og veru. Í fyrsta skrefi hvers kyns gagnastöðlunarferlis er að greina hvað þarf að ná fram. Besta leiðin til að vita hvað þú þarft er að skilja kröfur fyrirtækja. Þú þarft að skanna viðskiptaferla þína til að sjá hvaða gögn eru nauðsynleg og á hvaða sniði. Þetta mun hjálpa þér að setja grunnlínu fyrir gagnaþörf þína.

Gagnastaðalskilgreining hjálpar til við að bera kennsl á:

 • Gagnaeignirnar sem skipta sköpum fyrir viðskiptaferlið þitt, 
 • Nauðsynleg gagnasvið þessara eigna,
 • Gagnategundin, sniðið og mynstur sem gildi þeirra verða að vera í samræmi við,
 • Svið ásættanlegra gilda fyrir þessa reiti og svo framvegis.

 1. Prófaðu gagnapakka gegn skilgreindum staðli

Þegar þú hefur staðlaða skilgreiningu er næsta skref að prófa hversu vel gagnasöfnin þín standa sig gegn þeim. Ein leið til að meta þetta er að nota gagnaformun verkfæri sem búa til yfirgripsmiklar skýrslur og finna upplýsingar eins og hlutfall gilda sem eru í samræmi við kröfur gagnasviðsins, svo sem:

 • Fylgja gildi nauðsynlegri gagnategund og sniði?
 • Liggja gildi utan viðunandi marka?
 • Nota gildi stytt form, eins og skammstafanir og gælunöfn?
 • Eru heimilisföng staðlað eftir þörfum – svo sem USPS stöðlun fyrir bandarísk heimilisföng?

 1. Umbreyttu ósamræmilegum gildum

Nú er loksins kominn tími til að umbreyta gildum sem eru ekki í samræmi við skilgreindan staðal. Við skulum skoða algengar gagnabreytingaraðferðir sem notaðar eru.

 • Gagnagreining – Suma gagnareit verður fyrst að flokka til að fá nauðsynlega gagnahluta. Til dæmis að flokka nafnareitinn til að aðgreina fornafn, millinöfn og eftirnafn, svo og forskeyti eða viðskeyti sem eru til staðar í gildinu.
 • Gagnategund og sniðumbreyting – Þú gætir þurft að fjarlægja stafi sem ekki eru í samræmi við umbreytinguna, til dæmis að fjarlægja tákn og stafróf úr símanúmeri sem er eingöngu með tölustafi.
 • Mynstursamsvörun og staðfesting – Mynsturbreyting er gerð með því að stilla reglubundna tjáningu fyrir mynstrið. Fyrir netfangsgildi sem samræmast reglulegri tjáningu verður að flokka þau og umbreyta í skilgreint mynstur. hægt er að staðfesta netfang með því að nota regex:

^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$

 • Stækkun skammstöfunar – Fyrirtækjanöfn, heimilisföng og persónunöfn innihalda oft skammstafað form sem geta leitt til þess að gagnasafnið þitt innihaldi mismunandi framsetningu á sömu upplýsingum. Til dæmis gætir þú þurft að stækka landsríki, eins og að breyta NY í New York.
 • Hávaðafjarlæging og stafsetningarleiðrétting – Tiltekin orð bæta í rauninni enga merkingu við gildi, og í staðinn koma miklum hávaða í gagnasafn. Hægt er að bera kennsl á slík gildi í gagnasafni með því að keyra það á orðabók sem inniheldur þessi orð, merkja þau og ákveða hver á að fjarlægja varanlega. Sama ferli er hægt að framkvæma til að finna stafsetningarvillur og innsláttarvillur.

 1. Prófaðu gagnasafnið aftur gegn skilgreindum staðli

Í lokaskrefinu er umbreytta gagnasafnið endurprófað gegn skilgreindum staðli til að komast að hlutfalli gagnastöðlunarvillna sem voru lagaðar. Fyrir villurnar sem enn eru eftir í gagnasafninu þínu geturðu stillt eða endurstillt aðferðir þínar og keyrt gögnin í gegnum ferlið aftur. 

Klára

Gagnamagnið sem er búið til í dag – og margs konar verkfæri og tækni sem notuð eru til að fanga þessi gögn – leiðir til þess að fyrirtæki standa frammi fyrir hræðilegu gagnasóðaskapnum. Þeir hafa allt sem þeir þurfa en eru ekki alveg vissir um hvers vegna gögnin eru ekki til staðar á viðunandi og nothæfu formi og formi. Að samþykkja gagnastöðlunarverkfæri getur hjálpað til við að leiðrétta slíkt ósamræmi og gera mjög nauðsynlega gagnamenningu í fyrirtækinu þínu kleift.

Hvað finnst þér?

Þessi síða notar Akismet til að draga úr ruslpósti. Lærðu hvernig ummæli þín eru unnin.