빅 데이터 확률 과 통계 | 빅 데이터 3분 요약 249 개의 베스트 답변

당신은 주제를 찾고 있습니까 “빅 데이터 확률 과 통계 – 빅 데이터 3분 요약“? 다음 카테고리의 웹사이트 https://you.experience-porthcawl.com 에서 귀하의 모든 질문에 답변해 드립니다: https://you.experience-porthcawl.com/blog. 바로 아래에서 답을 찾을 수 있습니다. 작성자 연합뉴스경제TV 이(가) 작성한 기사에는 조회수 101,857회 및 좋아요 690개 개의 좋아요가 있습니다.

빅 데이터 확률 과 통계 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

d여기에서 빅 데이터 3분 요약 – 빅 데이터 확률 과 통계 주제에 대한 세부정보를 참조하세요

질병통제예방센터보다 더욱 빠르게 독감을 예측할 수 있다면 어떨까요? 구글의 엔지니어였던 제러미 긴즈버그는 구글 빅데이터에서 높은 상관관계를 지닌 데이터를 찾았습니다. 사람들이 구글 검색창에 감기 관련 증상을 검색하는 빈도를 파악하면 독감 발병률을 상당히 정확하게 측정할 수 있다는 사실을 알아낸 거죠. 구글은 그 이후 독감 트렌드 서비스를 제공, 질병통제예방센터보다 2주 정도 더 빨리 독감의 확산경로를 예측해 냈습니다. 바로 여기에 빅데이터가 사용됩니다. 여기저기서 너무도 많이 들리는 말 빅데이터, 도대체 빅데이터란 무엇일까요?
포털에서 빅데이터를 검색하면 ‘기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집/저장/분석 등이 어려운 데이터’ 라는 정의가 나옵니다. 1분 동안 구글에서는 200만 건의 검색, 유튜브에서는 72시간의 비디오, 트위터에서는 27만 건의 트윗이 생성된다고 하는데요, 컴퓨터나 스마트폰 사용의 증가로 디지털 환경이 조성되면서 사용되는 정보의 양과 규모가 엄청나게 증가했다는 것을 알 수 있죠.
그러나 빅데이터를 단순히 크다와 데이터의 합성어로만 볼 순 없을 것 같습니다. 과학전문지 네이처는 ‘향후 10년 안에 세상을 바꿀 가장 중요한 기술’로 빅데이터를 선정했고, 미국의 시장조사기관 가트너는 미국 경쟁력을 좌우하는 21세기 원유라고 표현하기도 했는데요. 그 방대한 데이터들을 모으고 분석하다 보면 상관관계에 있는 예측도 가능하다는 뜻입니다. 대량의 비정형 데이터에 담긴 사람들의 생각과 필요를 읽어낸다면 실로 그 힘이 엄청나게 커지는 것이죠.
날씨에 따라 먹고 싶은 음식이 달랐던 경험은 누구에게나 있을 듯 한데요, 국내 대표 베이커리 전문 매장은 5년간 169개 지역의 일별 매출과 기상자료를 통계기법으로 지수화한 ‘날씨 판매지수’를 활용했는데요, 판매량을 예측하고 주문량을 조절할 수 있어 판매할 제품이 없어 발생하는 손실인 찬스 로스를 방지할 수 있게 됐고, 영업이익은 더욱 늘었다고 합니다. 또 서울시는 심야시간 강남과 홍대 등 일부 지역에서 통화량이 급증한다는 사실을 깨닫고 데이터 30억 건을 분석해 심야에 사람들이 많이 이용할 수 있는 적절한 노선을 찾아 올빼미 버스라는 성공적인 프로젝트를 실행시켰죠.
“정보를 가진 자가 권력을 가진자이다” 이는 미래학자 앨빈 토플러가 한 말인데요, 만약 지금 앨빈 토플러가 살아 있다면 “정보를 분석하는 능력을 가진 자가 권력을 가진 자다”라고 이야기 하지 않을까 싶네요. 인터넷만 켜면 수많은 정보에 접근할 수 있는 지금, 누구나 가진 구슬을 갖는 사람이 아니라 그 구슬을 꿰어 보배를 만드는 사람이 진정한 권력자가 되겠죠. 빅데이터는 세상을 뒤바꿀 만병통치약이 아니라 의미 있는 일을 위한 도구의 하나라는 사실을 꼭 기억해야겠습니다.

빅 데이터 확률 과 통계 주제에 대한 자세한 내용은 여기를 참조하세요.

빅데이터를 위한 확률과 통계 | K-MOOC

본 강의는 4차 산업혁명시대에 빅데이터 처리의 이론적인 바탕인 확률과 통계의 기본이론 습득을 목표로 한다. 본 강의를 통해 빅데이터 분석을 위한표본조사방법과 …

+ 여기에 자세히 보기

Source: www.kmooc.kr

Date Published: 6/19/2022

View: 9478

빅데이터와 통계학

특히, 각각의 특징이 통계학적 방법론과 어떻게 연결되는지에 대해서 살펴보고자 한다. 2.1. 관측자료. 통계학적으로 분석자료는 크게 실험자료와 관측자료로 나눌 수 있다 …

+ 여기에 보기

Source: www.koreascience.or.kr

Date Published: 4/21/2021

View: 9681

확률과 통계, 빅데이터와 인공지능 기술에 왜 필요할까?

바로 빅데이터 분석에 확률과 통계가 활용되기에 가능했던 것입니다. 수많은 상품의 데이터를 수집하고, 분석해 고객에게 가장 적합한 상품은 무엇 …

+ 여기에 표시

Source: post.naver.com

Date Published: 5/22/2022

View: 5982

확률과 통계를 이용한 빅데이터 활용사례 by 소현 kyun – Prezi

확률과 통계를 이용한 빅데이터 활용사례. Number of times this content has been viewed 1,581 Button to like this content 1 Button to share content Button to …

+ 여기에 보기

Source: prezi.com

Date Published: 6/1/2022

View: 2979

[빅데이터 6] 데이터 통계 분석 (확률/통계, 확률 분포, 모집단의 …

1. 확률과 통계이론 통계 (Statistics) : 표본을 통하여 모집단을 추정하기 위한 학문 빅데이터와 관계 표본(=데이터)을 수집하고 분석하는 고전 과정 …

+ 더 읽기

Source: mingul.tistory.com

Date Published: 4/30/2022

View: 8813

확률과 통계의 관계 – 느닷없이 확률을 배우는 이유

라고 말한다면 빅데이터로 모은 그 모집단이라고 생각되는 집단도 사실은 큰 표본이라고 보는 것이 더 정확한 것 아닐까? – 라고 생각합니다 – 모집단에 가까운 큰 표본 …

+ 더 읽기

Source: recipesds.tistory.com

Date Published: 8/30/2022

View: 8028

8강 데이터 분석의 기초 – 확률과 확률분포 – 데이터온에어

의료 빅데이터 수강생입니다. 좋은 강의 감사합니다. 마지막에 카이제곱, t 분포가 왜, 어디에, 어떻게 사용되는지 설명이 부가적으로 있었으면 좋겠습니다. 감사 …

+ 여기에 보기

Source: dataonair.or.kr

Date Published: 11/30/2021

View: 1040

인공지능, 조건부 확률 – Contenta M

이런 상황에서 새로운 돌파구를 다름아닌 확률,통계에서 찾아내게 됩니다. … 그것이 보통 계산 방식으로는 다루기 어려울 정도로 많아질 때 빅데이터라고 부르기도 …

+ 여기에 자세히 보기

Source: magazine.contenta.co

Date Published: 4/15/2021

View: 7232

[개념 통계 02] 빅데이터의 시대 왜 통계인가?

빅데이터(Big data)의 시대라는 말을 많이 들어보셨을 것입니다. … 통계를 이용하면 보이지 않는 사회 현상과 인간 심리를 알 수 있다는 사실이 …

+ 여기에 자세히 보기

Source: drhongdatanote.tistory.com

Date Published: 6/22/2022

View: 5516

주제와 관련된 이미지 빅 데이터 확률 과 통계

주제와 관련된 더 많은 사진을 참조하십시오 빅 데이터 3분 요약. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

빅 데이터 3분 요약
빅 데이터 3분 요약

주제에 대한 기사 평가 빅 데이터 확률 과 통계

  • Author: 연합뉴스경제TV
  • Views: 조회수 101,857회
  • Likes: 좋아요 690개
  • Date Published: 2019. 9. 1.
  • Video Url link: https://www.youtube.com/watch?v=l2RBzee3Ag4

빅데이터를 위한 확률과 통계

Share with friends and family!

Tweet that you’ve enrolled in this course

트위터를 이용하여 친구 및 가족과 공유

Post a Facebook message to say you’ve enrolled in this course

페이스북을 이용하여 친구 및 가족과 공유

Email someone to say you’ve enrolled in this course

이메일을 이용하여 친구 및 가족과 공유

네이버를 이용하여 친구 및 가족과 공유

카카오를 이용하여 친구 및 가족과 공유

Email someone to say you’ve enrolled in this course

강좌 주소를 이용하여 친구 및 가족과 공유

[빅데이터 6] 데이터 통계 분석 (확률/통계, 확률 분포, 모집단의 추정)

반응형

1. 확률과 통계이론

통계 (Statistics) : 표본을 통하여 모집단을 추정하기 위한 학문

빅데이터와 관계

표본(=데이터)을 수집하고 분석하는 고전 과정

빅데이터의 기반 학문

모집단Population : 정보를 얻고자 하는 목표 대상의 전체 집단

표본Sample : 모집단의 일부이며, 관찰하여 획득한 데이터

모집단과 표본의 관계

모집단은 전수조사를 통하여 파악 가능 ⇨ 비효율

표본을 통하여 모집단의 정보를 추정

데이터의 유형

수치 데이터 Numerical Data : 측정하여 숫자의 형태로 획득한 데이터 예) 키, 몸무게, 온습도, 물품의 가격

범주 데이터Categorical Data : 데이터의 범주(category)를 사전에 정의하고, 데이터의 특성을 범주에 따라 분류한 데이터 예) 남녀 성별, 직업, 시/군/구 등 거주구역

통계의 분류

기술통계 Descriptive Statistics : 표본을 수집 ⇨ 정리 및 요약 , 목적 : 수집한 데이터로부터 의미있는 정보 를 추출

추측통계Inferential Statistics : 표본을 분석 ⇨ 모집단의 정보를 추측 , 목적 : 모집단의 정보 추측의 품질을 높임

통계 자료의 요약

도수분포표Frequency Distribution Table

구간/범주별로 표본의 출현 빈도수를 표현한 표

구체적인 수치를 통한 분석 가능

히스토그램Histogram

구간/범주별 빈도수를 그림으로 시각화 표현

양(magnitude)을 직관적으로 표현

통계 자료의 분석

산술평균 Mean/Average : 표본의 합을 표본의 수로 나눈 값

중앙값 Median : 표본을 크기의 순서로 나열하였을 때 중앙에 출현하는 값

최빈값 Mode : 표본 중 가장 큰 빈도수로 출현하는 값

범위 Range : 표본의 가장 큰 값과 가장 작은 값의 차이

표준편차 Standard Deviation : 분산의 제곱근으로 표본의 분포를 나타냄

분산 Variance : 산술평균과 표본 간의 차이의 제곱합을 표표본의 수로 나눈 값

확률 (Probability)

모집단의 정보가 있음

모집단 대비 특정 사건이 발생하는 비율의 표현

확률의 필요성

사건의 일반화, 사건의 경향을 알 수 있음 ⇨ 미래에 대비 가능

확률의 유형

단순 확률 Simple Probability : 한 가지의 사건이 발생할 확률

결합 확률 Joint Probability : 두 가지 이상의 사건이 발생할 확률

조건부 확률 Conditional Probability : 특정 사건이 발생하였다는 전제 하에 또다른 사건이 발생할 확률

통계와 확률의 차이점

*통계

모집단의 정보가 없음 ⇨ 표본으로 모집단 추정

*확률

모집단의 정보가 있음 ⇨ 모집단 대비 특정 사건이 발생하는 비율의 표현

2. 확률 분포

확률 변수 (Random Variable) : 2개 이상의 값을 취할 수 있는 변수

종류

이산확률변수 : 값이 범주화 되어 있는 경우

연속확률변수 : 값이 연속적인 경우

확률 분포 데이터가 출현할 확률의 분포

필요성

데이터 출현의 정도를 일반화 ⇨ 미래의 예측 가능

표본 내에서 확률 변수의 출현 확률을 바탕으로 모집단에서의 확률 변수의 출현 확률 추정 가능

확률 분포의 종류

이산 확률 분포Discrete Probability Distribution

이산 확률 변수가 가지는 확률 분포

확률 질량 함수(Prob. Mass Function) 표현

연속 확률 분포Continuous Probability Distribution

연속 확률 변수가 가지는 확률 분포

확률 밀도 함수(Prob. Density Function) 표현

기댓값Expectation : 확률 데이터가 집중되는 경향성을 대표하는 값

분산Variance : 확률변수가 기댓값으로부터 벗어난 정도를 표현

표준편차Standard Deviation : 분산의 제곱근으로, 기댓값 대비 분포 정도 표현

정규 분포Normal Distribution : 평균과 표준편차 기반의 연속 확률 분포

중심 극한정리에 근거⇨ 확률 변수의 평균은 정규 분포에 근접하는 성질

특성

절대근사한다.

평균과 표준편차가 주어지면 ⇨ 엔트로피를 최대화

정규 분포 곡선은 평균 대비 좌우 대칭

중앙값의 확률이 최대

3. 모집단의 추정

추정 이론 : 통계학과 신호처리의 한 분야로, 표본을 바탕으로 인자(parameter)를 추정하는 학문

필요성 : 한정된 데이터(=표본)를 바탕으로 최적의 추정 방법론(=추정량)을 적용 가능

추정 방법론 / 추정량 Estimation Methodology / Estimator

MLE : Maximum Likelihood Estimation : 사전 정보가 없는 상황 에서 성능을 최대화 하는 인자 추정 방법

MAP : Maximum A Posteriori : 사전 정보나 그 가정을 바탕 으로 성능을 최대화 하는 인자 추정 방법

최소제곱법 Least Squares : 사전 정보의 오차 제곱을 최소화 하는 인자 추정 방법

MMSE : Minimum Mean Squared Error : 사전 정보의 평균 제곱근 오차(MSE)를 최소화 하는 인자 추정 방법

칼만 필터 Kalman Filter : 이상 데이터가 포함된 선형 모집단의 인자를 추정하는 방법

모집단의 추정 Estimating Population

표본의 정보를 바탕으로 추정 방법론을 적용하여 모집단의 정보(평균, 비율)를 정확하게 추정

추정 이론(Estimation Theory)의 한 갈래

필요성

모집단을 전수조사하는 경우 ⇨ 분석 경제성 하락↓

표본을 바탕으로 모집단을 정확하게 추정하는 경우⇨ 분석 비용 절약 가능, 분석 효율성 향상

분산의 종류

모 분산Population Variance : 모집단으로부터 구한 분산

표본 분산Sample Variance : 표본으로부터 구한 분산

표준편차의 종류

모 표준편차Population Std. Dev. : 모집단으로부터 구한 표준편차

표본 표준편차Sample Std. Dev. : 표본으로부터 구한 표준편차

모집단 평균 추정Estimating Population Mean

신뢰구간 추정

모집단 비율 추정Estimating Population Ratio

신뢰구간 추정

반응형

느닷없이 확률을 배우는 이유

확률과 통계의 관계 – 느닷없이 확률을 배우는 이유

확률과 통계는 어째서 붙어 다니는 걸까. 고등학교 시절로 거슬러 올라가면, 어느 날 갑자기 – 정말 뜬금없이 – 경우의 수를 배우기 시작하게 되는데, 더욱 당황하게 만든 건 경우의 수 자체를 공식으로 배우게 된다는 사실입니다. 저로서는 매우 곤혹스러운 일이었는데, 수학을 매우 좋아하는 저로서도 갑자기 방금 배운 공식으로 문제를 풀어 재끼는 이 상황에서 네? 뭐라고요? 저기 잠시만요 하고 당황하게 되는 일이 한두 번이 아니었습니다. 이걸 하나하나 따져보지 않고 공식으로 한다는 신선한 문화적 충격이라고나 할까요.

수학 공식으로 접근하는 “경우의 수”가 확률이라는 것을 배우기 위해 필수라고 생각하긴 하지만, 그래도 이건 야 너무한 걸 하고 입이 나오게 중얼거리게 만드는 것임은 틀림없습니다. 이건 어느 수학 선생님이 하신 말인데, 수학을 좋아하는 학생들 중에 확률과 통계 때문에 좌절하는 학생들을 많이 보았다는 증언이 자꾸 제 귀에 맴돌게 되어, 이것 참 곤란한데 라고 생각 중입니다.

그래서 말인데, 확률이라는 것은 그냥 우리가 본능적으로 받아들이듯이 가능성 정도로 이해를 하고 통계를 바라봐야 지치지 않고 더 앞으로 전진할 수 있지 않을까 생각합니다. 경우의 수를 풀다가 쓰러지면 곤란하잖아요. 털썩.

이렇게 당황스러운 경우의 수를 지나가면 순식간에 확률이라는 걸 하게 되고, 곧바로 통계로 넘어가 버리니까, 정말 순식간에 내가 지금 뭘하고 있는 거지? 하고 길을 잃어버렸던 기억이 나버리네요.

대체, 어째서, 왜 확률과 통계가 같이 다니는 걸까요? 사실 확률과 통계가 같이 다니는 이유는 간단합니다. 통계에서 확률을 사용하니까 확률과 통계가 같이 다니는 거예요. 통계에서 확률을 어떻게 사용하는가? 나는 본 적이 없는데? 라는 생각이 드는 것이 당연합니다.

사실 추론통계에서 확률이 사용된다고 생각하면 매우 쉽게 접근할 수 있습니다. 또한 예측에도 사용되니까 이건 쉽게 이해 할 수 있겠습니다. 통계에서 뭔가 추론을 하거나, 예측할 때 확률을 이용하여 추론하거나, 확률을 이용해서 설명하게 됩니다.

무엇을 추론한다는 의미인가? 라는 질문이 또 고개를 드는 게 당연합니다. 통계는 표본을 통해서 모집단을 추론할 때 확률을 이용해서 계산하고, 결과를 표현합니다. 이런 걸 모집단의 특성을 설명하는 수인 모수라고 부르고, 영어로는 parameter라고 합니다. 모평균, 모분산, 모표준편차, 모비율, 모상관관계 등입니다.

여기에서 더 재미있는 사실이 있는데, 일반적으로 확률에서 배우는 알려진 확률분포들이 여러 가지 있는데, 이 분포들이 평균과 분산만 알면 모두 설명되어진다는 재미있는 사실입니다. 그러니까, 이런 것을 Parameter모수라고 부르고, 우리가 표본을 통해서 평균과 분산을 추론할 수 있다면 모집단도 어느 정도 확률분포로 설명할 수 있다는 것이죠.

여기에서 또 더 재미있는 – 자꾸 재미있다고 해서 미안한 생각이 듭니다만 – 사실은 표본평균을 통해 모집단의 평균을 추정할 때 표본평균 역시 모집단의 분포와 상관없이 어떤 특정한 확률분포 – 여기서는 Gaussian – 를 이루더라 하는 사실입니다. 그러니까 결국 모수를 표현할 때도 확률로 표현할 수 있게 되는 것입니다.

어쨌든 결국 모수를 추론하기 위해 표본을 뽑게 되는데 이 표본들에서 나오는 결과를 통계량이라고 부르는데, 이 통계량이 “확률변수”라는 사실인 것입니다.

확률은 알려진 모델이 주어져 있고, Data를 예측하는 것이고, 통계는 Data가 주어져 있고, 모델을 예측하는 것이라니. 정말입니까? 네. 그런 것 같네요. 어느 정도 이해가 되는 말인 것 같습니다만.

어떻게 보면 통계는 귀납적인 접근이라고 보면 좋겠습니다.

결국

① 확률모형은 확률함수로써 불확실성을 계량화하기 위해 사용하는 수학적 표현이고,

② 이런 확률모형에 사용되는 계수들을 모수, 즉 parameter라고 부릅니다.

③ 그러니까, 통계학에서 추론이라는 것은 표본을 이용해서 모수를 추정을 하는 것이고,

④ 그러니까 모수, parameter를 추정한 할 수만 있다면 확률 모형을 추정할 수 있다는 말이고,

⑤ 확률 모형을 안다는 것은 그 분포를 안다는 것과 같은 말이며,

⑥ 분포를 안다는 것은 모집단을 안다는 뜻이며, 어떠한 X값이든 그 X가 발생할 확률을 얻을 수 있다는 말입니다.

그러니까, 결론적으로 얘기하면, 통계는 표본을 가지고 모집단을 확률로 예츠으윽!!!! 이것이 다 입니다. (사실 고백하자면 이 얘기를 백만번 들었던 것 같습니다만, 엣, 진짜요? 또 묻게 되는 뭐 그런 중요한데 시시한 이야기입니다.)

결국 이런 스토리인 것입니다. 아하. 그래서 확률과 통계가 같이 다니는구나. 하고 생각한다면 조금은 마음이 후련해지는 것 같은 느낌입니다.

사실 요즘 세상이 빅데이터 세상이고, 빅데이터가 모집단 그 자체인데 의미가 있나요? 라고 말한다면 빅데이터로 모은 그 모집단이라고 생각되는 집단도 사실은 큰 표본이라고 보는 것이 더 정확한 것 아닐까? – 라고 생각합니다 – 모집단에 가까운 큰 표본이기 때문에 추론통계가 또한 역시 필요한 것 아닌가 생각합니다. 아 물론 어차피 통계가 오차라는 것을 포함하기 때문에 어-엄-청 큰 데이터를 모집단이라고 생각한다고 해서 또 누가 뭐라 할 만큼 큰 문제는 없지 않을까 하는 약간 무책임한 생각도 역시 하고 있습니다.

모수적 비모수적 방법이라는 말이 있는데, 비모수적 방법이라는 것은 표본이 너무 작거나, 모집단의 Parameter 자체에 대한 접근을 하지 않는 경우를 의미하는데 모집단의 분포를 가정할 수 없을 경우 모집단의 분포 유형에 관계없이 적용할 수 있기 때문에 비모수적 방법은 모집단의 분포에 대한 가정을 필요로 하지 않는 경우를 말합니다. 그러니까 분포무관 통계학(distribution free statistic)이라고 불리기도 합니다. 또, 표본의 크기가 작을 때도 비모수적 방법을 사용합니다. 보통 머신러닝을 할 때 이런 방법들이 사용됩니다.

모수통계의 가장 많이 다루는 모형은 정규분포입니다. 2개의 모수로 모든 것이 설명 가능해요. – 그것은 Mean(μ)과 Variance(σ²) 입니다 –

이런 얘기를 또 하게 되면, 너무 흥미진진해져 버리니까 – 라고 하자구요 – 일단은 모르는 척하고 지나가겠습니다.

보통 통계량(Statistics)이라는 말과 모수라는 말이 나오는데 모수(Parameter)라는 말과의 차이는 모수는 모집단이 변하지 않으니까 변하지 않는 값, 통계량은 표본을 어떻게 추출하느냐에 따라 변하는 값입니다. 여기에서 중요한 논리가 있는데 “표본 추출할 때마다 통계량이 달라질 텐데, 이렇게 변하는 값으로 어떻게 모수를 추정하나요?”라는 질문이 당연히 나올 수 있습니다. 그래서 여기에서 중요한 내용이 통계량 자체가 확률변수(Random Variable)라는 것입니다. 이 통계량을 이용해서 모수를 확률로 추정하는 것이죠.

그런 의미에서 확률은 측정 가능한 이벤트가 일어날 가능성을 표현하는 학문이고, 통계는 Sampling(표본추출)을 통해서 관측한 현상에 대한 분석을 하는 학문이라고 보면 조금 더 쉬운 정의가 아닐까 생각합니다. 아까 살펴본 얘기를 다시 쓰는 셈인데,

확률적 계산 → 알려진 모집단에서 주어진 표본이 얻어질 확률 계산

통계적 추론 → 주어진 표본을 가지고 모집단에 대해 예측입니다.

자꾸 첨언해서 미안합니다. 만. 조금 더 실제적인 예를 든다면 다음의 예처럼 비유하면 쉬운 비유가 될 것 같습니다.

1. 서랍 속에 빨간 양말이 8개, 까만 양말이 2개 있다는 사실을 알고 있다고 합시다.

이때 양말을 랜덤을 뽑는다고 했을 때, 빨간 양말을 뽑을 확률은 얼마입니까? 라고 한다면 확률인데

2. 서랍 속에서 양말을 계속 뽑아 봤더니 10번 중에 빨간 양말이 2번, 까만 양말이 8번 나오더라. 이 현상을 보고 빨간 양말과 까만 양말의 개수를 추정하게 되면 이건 또 통계 문제라고 보면 쉬울 것 아닌가 생각합니다. 물론 제 옷장의 서랍에는 빨간 양말과 까만 양말은 없고, 흰 양말만 잔뜩 있습니다. 개인 취향이니까요.

[개념 통계 02] 빅데이터의 시대 왜 통계인가?

정보기술(IT)의 시대에서 데이터기술(DT)의 시대로!

중국 최대 온라인 전자상거래 업체 알리바바그룹의 회장 마윈은 ” 세상은 지금 IT시대에서 DT시대로 가고 있다.” 고 말했습니다. 여기서 DT는 데이터 기술(Data Technology)의 약자입니다. 빅데이터(Big data)의 시대라는 말을 많이 들어보셨을 것입니다. 다양한 Smart IT 기기에서 실시간으로 수많은 정보들이 홍수처럼 쏟아지고 있습니다. 빅데이터 기술이란 이러한 형식이 서로 다른 엄청난 양의 데이터가 실시간으로 발생될 때 무질서한 것처럼 보이는 데이터 속에서 특정 또는 일정한 패턴을 찾아내는 기술이라고 할 수 있습니다.

조금더 자세히 빅데이터가 무엇인지 설명해 보도록 하겠습니다. 일반적으로 빅데이터는 ” 기존의 관리 및 분석 체계로는 감당할 수 없을 정도의 거대한 데이터의 집합을 지칭” 합니다. 빅데이터의 특성은 크게 세 가지 정도로 나눌 수 있습니다.

첫번째 특징은 당연하게도 데이터의 규모 (Volume) 입니다.

트위터(Twitter)에서는 하루 평균 1억 건 이상의 데이터가 생성되고, 유튜브(Youtube)의 하루 평균 동영상 재생건수는 40억 회를 훌쩍 넘습니다. 이제 다루는 데이터의 규모가 커져 제타바이트 시대로 진입하고 있습니다.

두 번재 특징은 데이터 종류의 다양성 (Variety) 입니다 .

소셜네트워크 (SNS)의 발달로 텍스트 뿐만아니라 오디오, 비디오, 위치 정보 등 다양한 형식의 데이터가 엄청나게 발생하고 있습니다. 즉 한 가지 데이터 형식이 아닌 다양한 형식의 데이터를 갖는 것이 빅데이터의 특성입니다. 빅데이터는 문자, 영상, 위치 데이터 등 다양한 데이터 종류가 존재하기 때문에 비정형화된 데이터 특징을 가지고 있다고 볼 수 있습니다.

세 번재 특징은 속도 (Velocity)입니다.

빅데이터는 실시간으로 데이터가 생성되고 이동됩니다. 이 때문에 빅데이터 기술은 대용량의 데이터를 빠르게 처리하고 분석할 수 있어야 합니다. 이러한 빅데이터는 공공 산업, 마케팅, 기업 경영, 보건 등 다양한 분야에 활용될 수 있고, 현재 많은 분야에서 빅데이터를 활용하려고 노력하고 있습니다. 대표적인 빅데이터 활용 사례로 구글 트렌드 분석 (http://www.google.co.kr/trends/)을 들 수 있을 겁니다. 구글 트렌드에 들어가서 “Big data”로 검색을 해보면 Big data의 관심도가 2011년 이후에 급격하게 증가하고 있는 것을 보여줍니다. 또한 그 키워드가 어느 지역 국가에서 관심이 많은지 그리고 관련 키워드는 어떤 것들이 있는지를 실시간으로 분석해 줍니다. 이 외에도 빅데이터의 활용 범위는 무궁무진하다고 볼 수 있습니다.

그렇다면 왜 통계인가?

간단히 말씀드리면 통계학은 데이터에서 의미를 찾아내는 방법을 다루는 학문입니다. 따라서 빅데이터 기술의 기본은 바로 통계학입니다. 다소 과장해서 말씀드리면 데이터 기술의 시대에 통계학은 반드시 익혀야할 학문 분야입니다. 물론 모두가 빅데이터를 처리하는 데이터 사이언티스트(Data scientist)가 될 수는 없습니다. 그러나 적어도 통계적 지식을 바탕으로 데이터를 해석하고 활용하는 것은 일반인들도 할 수 있다고 생각합니다.

통계학은 영어로 Statistics입니다. 라틴어의 Status (국가)에서 유래되었습니다. 다시 말해 통계학은 나라를 다스리기 위해 필요한 인구(Census, Population)를 다루는 일이라고 할 수 있을 겁니다. 현대에 와서는 통계학을 다음과 같은 다양한 이름으로 부르고 있습니다. 대학교에 들어가서 아래와 같은 전공을 선택하셨다면 그냥 통계학을 공부하신다고 보시면 됩니다.

□ Data Information Science

□ Data Science

□ Decision-making Science

□ Statistical Information Science

□ Statistical Science

□ Informative Statistical Science

□ Information Management Science

….

그렇다면 통계학은 왜 그리고 어떻게 쓰일까요?

아래 그림은 경험과학의 일반적인 연구절차입니다. 연구자는 어떤 현상에 대해서 가설을 설정하고 그것을 확인하기 위해 통계적 가설을 설정합니다. 다음으로 통계적 가설을 검증하기 위해 실험을 설계하여 연구자가 설정한 가설이 참인지 거짓인지 통계적으 검정하는 것이 일반적인 연구 절차입니다.

경험 과학은 실험 또는 관찰을 통해 수집한 자료(경험)를 바탕으로 일반화된 이론을 내 놓습니다. 이론 수학처럼 책상에 앉아서 머리 속으로 이론을 만들어 내는 것이 아니라 연구자가 여러 데이터를 수집하여 그 속에 담겨있는 의미와 원리를 찾아야한다는 것입니다. 대표적으로 경험과학 분야로 사회 과학을 들 수 있습니다. 좀 이상한 질문이지만 사회 과학은 과학일까요? 인문학은 보통 우리가 생각하는 공학이나 순수 과학과는 달라서 과학이라고 부르기 힘들지 않을까요? 그렇지 않습니다. 사회 과학도 과학이죠. 어떤 분야가 “과학”이라는 명칭을 얻기 위해서는 반드시 수학적 논리가 필요합니다. 다시 말해 과학이 되기 위해서는 어떠한 현상을 수학적으로 설명 가능해야 한다는 것 입니다. 수학적으로 어떤 현상을 설명 가능하다는 것은 바로 어떤 현상을 예측을 할 수 있다는 것과 같은 말입니다. 과학의 언어는 수학입니다.

사회 과학은 통계학 덕분에 과학이 될 수 있었습니다.

왜냐하면 “통계는 수집한 자료(data)를 이용하여 연구가설(hypothesis)의 참 거짓을 판정하는 수학적 또는 확률적 논리를 제공” 하기 때문입니다. 우리는 통계를 사용하여 사회적 현상 또는 인간 심리를 수학적으로 설명할 수 있습니다. 통계를 이용하면 보이지 않는 사회 현상과 인간 심리를 알 수 있다는 사실이 재밌지 않습니까? 자 그러면 다음 포스팅 부터는 본격적으로 기초적인 통계 개념에 대해서 말씀드리도록하겠습니다.

도움이 되셨다면 공감하트 꾹 눌러주세요~!

키워드에 대한 정보 빅 데이터 확률 과 통계

다음은 Bing에서 빅 데이터 확률 과 통계 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 빅 데이터 3분 요약

  • 동영상
  • 공유
  • 카메라폰
  • 동영상폰
  • 무료
  • 올리기

빅 #데이터 #3분 #요약


YouTube에서 빅 데이터 확률 과 통계 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 빅 데이터 3분 요약 | 빅 데이터 확률 과 통계, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

Leave a Comment