01 빅데이터의 이해
1. 빅 데이터의 정의
빅데이터는 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이다.
빅 데이터는 3V의 정의를 가진다.
- Volume (데이터의 크기) : 생성되는 데이터가 매우 많음
- Variety (데이터의 다양성) : 데이터의 종류가 비정형 데이터처럼 다양해짐.
- Velocity (데이터의 속도) : 데이터를 업데이트하거나 분석이 빠르게 됨.
2. 출현 배경
(산업계)
고객의 데이터를 축적해 숨어있는 가치를 발굴해 새로운 성장 동력원으로 만들어 냄
(학계)
거대 데이터 활용 과학이 확산됨(인간 게놈 프로젝트)
(관련 기술의 발전)
인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅의 발전
(*데이터의 규모)
1테라 바이트 = 1024 기가 바이트
1페타 바이트 = 1024 테라 바이트
1엑사 바이트 = 1024 페타 바이트
1제타 바이트 = 1024 엑사 바이트
3. 빅 데이터 기능
- 빅 데이터는 산업혁명의 석탄과 철에 비유된다.
빅 데이터는 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어 올려 혁명적 변화를 가져올 것으로 기대되고 있다. - 빅 데이터는 원유에 비유된다.
빅 데이터는 원유처럼 각종 비즈니스, 대국민 서비스, 경제 성장에 필요한 ‘정보’를 제공함으로써 생산성을 한 단계 향상시킬 것으로 기대된다. - 빅 데이터는 렌즈에 비유된다.
현미경이 생물학에 미쳤던 영향처럼 데이터가 산업전반에 영향을 미칠 것으로 기대된다. - 빅 데이터는 플랫폼에 비유된다.
‘공동 활용의 목적으로 구축된 유무형의 구조물’의 역할을 수행한다.
4. 빅 데이터가 만들어내는 본질적인 변화(중요)
- 사전처리에서 사후처리로
과거에는 필요한 데이터만 저장하여 사용하기 위하여 사전에 설정한 데이터만 저장하였지만, 무어의 법칙과 같은 현상으로 인해 데이터를 저장하는 데 필요한 비용이 매우 감소하여 사후 처리를 할 수 있게 되었다. - 표본조사에서 전수조사로
데이터를 수집할 때 사용되는 비용은 크게 중요하지 않게 되었고, 그리고 클라우드 컴퓨팅 기술의 발전으로 인하여 많은 데이터를 처리하는 비용이 매우 감소하고 있다. 따라서, 전수조사가 가능해졌다. 여기서 전수조사의 장점은 표본조사가 주지 못하는 패턴이나 정보를 제공해준다는 점이다. - 질보다는 양으로
데이터는 질보다는 양이 중요하다. 왜냐하면, 사소한 몇개의 데이터를 무시할 수 있기 때문이다. - 인과관계에서 상관관계로
인과관계는 데이터들 간의 관계의 의미를 가지고 있는 것이다. 예를들어, 키가 크면 몸무게가 상대적으로 더 나갈 수 밖에 없는 이유는 키가 크면 뼈도 조금 더 크고 하니까 몸무게가 더 많이 나간다고 생각할 수 있다. 이러한 것이 인과관계이다. 하지만 데이터에 관해서는 상관관계만 있어도 충분하다.
02. 빅 데이터의 가치와 영향
1. 빅 데이터의 가치
- 빅 데이터의 가치 산정이 어려운 이유
- 데이터의 활용 방식
여러가지 방법으로 데이터가 재 활용되는 경향이 있어서, 가치를 산출할 수 없다. - 새로운 가치 창출
과거에는 없던 데이터의 가치가 새롭게 생겨날 수 있다. - 분석 기술의 발달
지금은 가치가 없던 데이터라도 새로운 분석기법의 등장으로 가치를 만들어내는 재료가 될 수 있다.
데이터 유형 | 특징 | 데이터 종류 |
---|---|---|
정형 데이터 | 데이터가 구조가 있으며, 고정된 필드에 저장됨 | 스프레드시트 |
반정형 데이터 | 데이터의 속성인 메타데이터를 가지며, 스토리지에 저장되는 데이터파일 | HTML, XML, JSON |
비정형 데이터 | 멀티미디어 데이터 | 소셜 데이터, 문서, 이미지, 오디오 |
정형 데이터 의 예
반 정형 데이터의 예(출처- 데이터 전문가 지식포탈)
빅 데이터의 영향
- 기업에게 끼친 영향
혁신, 경쟁력 제고, 생산성 향상 - 정부에게 끼친 영향
환경탐색, 상황분석, 미래대응 - 개인에게 끼친 영향
목적에 따라 활용
-> 생활 전반의 스마트화
빅데이터가 가치를 만들어내는 방식(맥킨지가 선정한 5가지)
- 투명성으로 인해 연구 개발의 효율 증가
- 시뮬레이션을 통한 사전 예측으로 경쟁력 강화
- 맞춤 서비스 제공
- 알고리즘을 활용한 의사결정
- 비즈니스 모델과 제품 그리고 서비스의 혁신
03. 비스니스 모델
1. 빅 데이터 활용 사례
- 구글의 검색엔진
- 월마트의 구매 패턴 분석
- 영화 추천 시스템
2. 빅 데이터 활용 테크닉
연관 규칙 학습
변수들 간에 주목할만한 상관관계가 있는지 찾는 방법.
Ex) 슈퍼마켓에서 상관관계가 높은 제품을 함께 진열 (맥주와 기저귀)유형 분석(Classification)
어떤 유형에 속하는지 분류하는 방법.
Ex) 사진을 보고 어떤 사진인지 분류(강아지인지 고양이 인지 분류)유전 알고리즘
최적화의 매커니즘을 찾아가는 방법.
Ex) 높은 시청률을 내려면 언제 방송을 해야하는가?기계학습
데이터를 활용해 학습을 시켜, 과거의 경험을 토대로 예측을 수행한다.
Ex) 넷플릭스의 영화 추천 시스템회귀 분석
각각 변수들 간의 관계를 알려줄 수 있다.
Ex) 키에 따라 몸무게의 변화를 분석하여, 키가 몸무게에 미치는 영향력을 알 수 있다.감정 분석
어떤 변화에 대해 사람들의 평가가 어떠한지 알고 싶을 때 활용한다.
Ex) 소셜 미디어에 나타난 의견으로 고객의 니즈를 찾아낸다.소셜 네트워크 분석 = 사회망 분석(SNA)
소셜관계를 파악하는 것이다. 영향력이 있는 사람을 찾아낼 수 있다면, 고객들 간 소셜관계를 파악할 수 있다.
04. 위기 요인과 통제 방안
1. 위기 요인 및 통제 방안
사생활 침해
정보수집 센서가 많아지고 있는 상황 등 다양한 부분에서 사생활의 침해가 증가하고있다.
(해결방안)
익명화와 같은 방안으로 개인 식별 정보를 삭제하거나 알아볼 수 없는 형태로 변환한다.
개인정보의 사용자에게 책임을 물음으로써, 사용자가 더 조심하도록 한다.(동의제에서 책임제로)책임 원칙의 훼손
빅 데이터의 기술이 발전하며 예측기술이 발전하였지만, 항상 정확히 맞는 것은 아니다. 예측의 대상이 되는 사람들이 잘못된 예측으로 잘못된 판결을 받을 수 있다.
(해결방안)
기존의 책임원칙을 강화할 수 밖에 없다. 빅 데이터를 통한 예측은 단순히 참고용으로 활용하고, 결과론적으로 책임을 판결하도록 해야한다.데이터의 오용
빅 데이터는 일어난 일에 대한 데이터에 의존한다. 따라서 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다. 따라서 주어진 데이터에 잘못된 인사이트를 얻어 비즈니스에서 손실을 가져올 수 있다.
(해결방안)
데이터 알고리즘에 대한 접근권을 허용하고 객관적인 인증방안을 도입한다.
05. 미래의 빅 데이터
(빅 데이터의 활용 3요소)
- 데이터
모든 것을 데이터화 하는 추세며, 특정한 목적 없이 생산된 데이터라도 창의적으로 재횔용 되며 가치를 만들어 낼 수 있다. - 기술
빅 데이터 분석 알고리즘의 진화가 계속해서 가속화 될 것이다. - 인력
데이터 사이언티스트와 알고리즈미스트의 역할이 매우 중요해질 것이다. 빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직전략 방향 제시에 활용할 수 있는 기획자로서 전문가 역할을 할것으로 기대된다.
(개인정보와 비 식별화)
개인정보 - 개인을 알아볼 수 있는 정보.
비식별화 - 특정 개인을 알아볼 수 없도록하는 일련의 조치.
(개인정보 식별 요소 제거방법)
가명처리 - 개인정보 중 주요 식별요소를 다른 값으로 대체함.
총계처리 또는 평균값 대체 - 데이터의 총합 값을 보여 개별 데이터의 값을 보이지 않도록함.
데이터 값 삭제 - 개인 식별에 중요한 값을 삭제함.
범주화 - 데이터의 갓을 범주의 값으로 변환해 명확한 값을 감추는 것.
데이터 마스킹 - 공개된 정보에 대하여 식별하지 못하도록 마스킹 처리를 하는 것.
포스팅을 마치며
이번 장은 빅 데이터에 대하여 알아보는 좋은 시간이였습니다. 빅 데이터 시대가 도래하며 발생할 수 있는 문제점들은 매우 중요한 부분이기 때문에 꼭! 명심하고 넘어갑시다!
'Etc > Adsp' 카테고리의 다른 글
ADsP 시험준비 3과목 데이터분석(1) (0) | 2021.07.16 |
---|---|
ADsP 시험준비 2과목 데이터 분석 기획(2) (0) | 2021.07.16 |
ADsP 시험준비 2과목 데이터 분석 기획(1) (0) | 2021.07.16 |
ADsP 시험준비 1과목 데이터의 이해(3) (0) | 2021.07.16 |
ADsP 시험준비 1과목 데이터의 이해(1) (0) | 2021.07.16 |