LG CNS '서울시민 라이프스타일 재현데이터' 생성
기업들의 신기술 개발은 지속가능한 경영의 핵심입니다. 이 순간에도 수많은 기업들은 신기술 개발에 여념이 없습니다. 기술 진화는 결국 인간 삶을 바꿀 혁신적인 제품 탄생을 의미합니다. 기술을 알면 우리 일상의 미래를 점쳐볼 수 있습니다. 각종 미디어에 등장하지만 독자들에게 아직은 낯선 기술 용어들. 그래서 뉴스핌에서는 'Tech 스토리'라는 고정 꼭지를 만들었습니다. 산업부 기자들이 매주 일요일마다 기업들의 '힙(hip)' 한 기술 이야기를 술술~ 풀어 독자들에게 전달합니다.
[서울=뉴스핌] 김정인 기자 = 서울시민의 라이프스타일은 국내 산업계를 좌지우지합니다. 특히 기업들은 서울시민의 금융, 소비 패턴 등을 분석해 새로운 비즈니스의 기회를 창출하기도 합니다. 다만 정보 수집의 제한성, 개인정보 유출 우려 등에서 에로사항이 있었습니다. 앞으로는 LG CNS의 기술력을 바탕으로 누구나 자유롭게 서울시민의 합성데이터를 활용해 연구·분석이 가능해질 전망입니다.
LG CNS가 서울시민의 생활 특성을 담은 가상의 '합성데이터(재현데이터)'를 성공적으로 생성해 본격 서비스 제공에 나섰습니다. 합성데이터는 원본 데이터의 통계적 특성을 유지한 가상으로 재현된 데이터. 원본 데이터 분석 결과와 유사한 결과를 얻을 수 있도록 설계됩니다. 가명정보와 함께 데이터 개인정보 이슈를 해결할 수 있는 방법 중 하나로 꼽히기도 합니다.
지난 2일 오후 서울 동작구 노량진수산시장에서 시민들이 수산물을 구매하고 있다. [사진=뉴스핌DB] |
LG CNS는 주민등록자료, 건축물대장, 민간 3사(신용정보회사, 카드사, 통신사)의 정보로 제작된 가명결합 데이터를 기반으로 합성데이터를 생성했습니다. 이 합성데이터는 원본 데이터의 통계적 특성을 유지하면서도 개인식별 위험 없이 데이터의 활용 가치를 유지하는 것이 가장 큰 특징입니다.
또 결합된 가명정보를 기반으로 합성데이터를 생성함으로써 데이터의 활용성과 안전성을 한층 강화했습니다. 가명정보는 안전하고 유용한 개인정보 활용 방안임에도 불구하고 정해진 목적과 제한된 취급자만 정보를 활용할 수 있는 제약사항이 있었습니다. 이번에 LG CNS가 생성한 서울시 합성데이터는 충분한 안전성을 확보해 누구나 자유롭게 활용 가능합니다. 서울시 합성데이터를 활용해 유관기관들은 정책연구 사전설계를, 시민들은 데이터 분석 실습 등을 더욱 활발하게 진행할 수 있습니다.
LG CNS 본사의 모습. [사진=LG CNS] |
LG CNS는 유스케이스(Use-Case) 설계부터 정교한 데이터 샘플링, 합성데이터 생성 모델 개발, 전·후처리 과정 등을 통해 대규모의 고품질 합성데이터를 생성했습니다. '서울시민 라이프스타일 재현데이터'는 범주형 데이터와 수치형 데이터가 공존하는 정형데이터입니다. '서울시민 금융현황'과 '서울시민 소비 및 이동 패턴' 등 두가지 주제의 데이터세트로 제공돼 활용 가치가 높습니다.
'서울시민 금융현황' 데이터의 경우 약 65개의 변수, 약 740만 건의 합성데이터로 이뤄져 있습니다. 이 합성데이터를 활용하고 싶은 기관 및 시민들은 빅데이터캠퍼스에서 ▲성별 ▲생년월일 ▲직업 ▲추정연소득 ▲자산금액 ▲대출잔액 등 약 65개의 변수를 조합해 서울시민의 금융 현황 데이터를 분석하고, 인사이트를 얻을 수 있습니다. 예를 들어 서울시민 금융현황 합성 데이터를 통해 ▲1인 가구의 다인가구 대비 연체 및 대출 통계량 분석 ▲가구구성원 수 및 세대주 연령대에 따른 주택담보대출 상환비중 분석 ▲1인 가구 자영업자 경제적 부담 분석 등을 진행해 볼 수 있습니다.
앞으로 모든 분야에서 개인정보 보호와 데이터 활용에 대한 중요성이 더욱 커지고 있는 가운데, LG CNS의 가명정보 결합과 합성데이터를 활용해 새로운 비즈니스 기회가 창출될 수 있을 지 주목됩니다.
kji01@newspim.com