데이터를 연구에 활용하고자 합니다. 작업을 하던중 데이터에 상당한 오류가 있어보여, 데이터의 신뢰성을 확인하기 위하여 다음과 같은 심플한 작업을 하였습니다.
프랜차이즈가 아닌 일반 소상공인이 운영하는 마트나 편의점으로 판단되는 업종들중 2000년도와 2005년도에 인허가가 된것들을 고르고 그다음, 현재 운영중인것으로 데이터상에 존재하는 업체들중 11 개를 무작위로 선정하였습니다. 그리고, 그것들이 실제 존재하는지 여부를 포털사이트들, 지도사이트들 그리고 로드뷰를 통해 검증하였습니다. 11개중 7개의 경우 실제로 존재하지 않지만 데이터상으로는 영업중이라고 되어있는것으로 판단이 되었습니다. (아래 해당 업체들 정보를 살펴보길 바랍니다.) 2010년대 이후 자료를 가지고도 이와 비슷한 작업을 했고, 오류의 빈도가 아주 약간 줄어 들긴 하였지만, 여전히 문제가 많았습니다. 이는 데이터의 신뢰성에 매우 문제가 있다는것을 보입니다. 이런 오류를 어떻게 처리를 할 수 있을지, 신뢰성있는 인허가 자료를 사용하기 위한 방법이 있는지 궁금합니다.
(댓글 감사합니다. 요청사항에 맞게 수정하였습니다. 사실 이것 말고도 데이터 분석을 하는데 혼란스러운 점이 매우 많이 존재합니다. 일단 이 부분이 클리어 되면 다른 질문 올리겠습니다 )
현재존재여부 opnSvcId opnSfTeamCode mgtNo
존재안함 09_30_13_P 3****** *******14200500057
존재안함 09_30_13_P 3****** *******14200500044
존재 09_30_13_P 3****** *******14200000046
존재안함 09_30_13_P 3****** *******14200000072
존재 11_43_02_P 3****** *******007605601461
존재안함 09_30_13_P 3****** *******14200000079
존재안함 09_30_13_P 3****** *******14200000108
존재 11_43_02_P 3****** *******007605600075
존재안함 11_43_02_P 3****** *******008905600097
존재안함 09_30_13_P 4E+06 400000014200500024
존재 11_43_02_P 4****** *******008305600015
|