Books

앵버박사 2017. 3. 6. 20:44


1장 - 정보의 시각화

  • 통계학 : 로우 데이터를 의미있는 방식으로 정리하여 핵심을 파악하고 어떤 결정을 할 수 있게 도와주는 학문
  • 통계 프로세스 : 데이터 수집 -> 분석 -> 결론 도출
  • 데이터는 그냥 수치 등의 날 것 / 정보는 데이터 + 의미
  • 파이 차트 : 비율을 보여줌, %를 나타내면 혼돈이 생길 수 있음, 각 항목 별 차이가 적으면 효과가 낮음.
  • 막대 그래프 : 수직/수평 둘다 OK, 파이 차트의 단점을 커버 가능, 퍼센트 눈금 사용 시 도수를 같이 표시해야 데이터의 정확성을 인지 할 수 있음, 눈금이 몇 부터 시작하느냐에 따라 느낌이 다르니 주의.
  • 복수 막대 그래프
  1. 분할된 범주
  2. 조각으로 나누어진 : 도수와 비율을 동시에 표현
  • 데이터의 종류
  1. 범주적 또는 정성적 데이터(개의 종류, 디저트 타입 등) - 막대 그래프
  2. 수치적 또는 정량적 데이터(무게, 길이, 시간 등) - 히스토그램
  • 히스토그램
  1. 면적이 도수에 비례함
  2. 막대 사이에 공간이 없음
  3. 히스토그램 막대의 높이 = 도수밀도(높이가 도수의 밀도를 나타내기 때문)
  4. 도수는 막대의 면적
  5. 도수밀도 = 도수 / 폭
  6. 히스토그램은 높이를 도수밀도로 해야 함
  • 누적도수
  1. 도수의 누적 합계
  2. 선 그래프는 시간 흐름에 따른 데이터를 표현하는데 강점, 범주 데이터 표현은 불가.

2장 - 중심적 경향 측정하기
  • 평균(average) - 큰 분류(빵)
  1. 평균값(mean) - 작은 분류(밤식빵) : μ(뮤) = ∑x / n = ∑f(x) / ∑f
  2. 중앙값(median) : 쭉 나열한 후 (n+1) / 2 번째가 중앙값, 만약 짝수면 두 수의 평균값
  3. 최빈값(mode) : 가장 큰 빈도찾기, 두개 이상일 수 있음, 두개인 경우 이봉(bimodal) 이라고 함, 범주적 데이터에서도 사용가능, 가장 높은 빈도의 범주를 최빈계급(modal class) 라고 함, 데이터 내 값 중에 존재함.
  • 이상치(outlier) : 극단적인 값의 데이터로 mean에 잘못된 영향(편향)을 준다.

3장 - 변이와 분포 측정하기
  • 평균은 대표적인 것만 보여주고, 데이터의 분포 형태는 보여주지 못함, 따라서 다른 것이 필요함.
  • 범위는 데이터가 얼마나 넓게 분포되어 있는지 알려 줌(범위 = 상한 - 하한)
  • 범위는 이상치에 약함, 단순의 폭만 알려 줌, 따라서 사분범위를 씀.
  • 사분위수는 데이터를 순서대로 나열한 후 4개의 그룹으로 나눔(Q1, Q2, Q3 세 지점으로 나누면 4개의 그룹이 됨)
  • 사분범위 = Q3 - Q1, 3Q = 3n / 4, 1Q = n / 4 (정수면 +1의 값, 정수가 아니면 올림 값이 쿼터의 위치)
  • 백분위수 : 백분율로 나눔, 사실 사분위수도 백분위수의 종류(25%)
  • 벤치마킹에 사용 : 90번째 백분위수의 50점이라고 하면 나보다 낮은 점수가 90%라는 것을 알 수 있음.
  • 백분위수 찾기 - k(n / 100), k는 몇 %
  • P(k) 로 표시
  • 상자수염 다이어그램(박스 그림) : 상자 가운데 선은 중앙 값, 왼쪽 선은 하한 사분위수, 오른쪽 선은 상한 사분위수, 왼쪽 끝은 하한, 오른쪽 끝은 상한
  • P143 왜 사분위수로 일관성 보장을 못하는가? 박스 그림으로 할 수 있을 것 같은데..
  • 평균거리는 (평균 - 각 값)의 합인데, 이는 항상 0 임(+, - 상쇄)
  • 일관성(변이)를 더 정확하게 측정하기 위해 분산이 필요
  • 분산 Var(x) = ∑(x-μ)^2 / n
  • 하지만 분산은 평균과의 거리가 눈에 안들어오기 때문에 표준편차를 사용함
  • 표준편차 σ = sqrt(분산), σ^2 = 분산
  • 일반적인 값들은 평균으로 부터 표준편차 만큰 떨어져 있음(왜 평균거리의 절대 값을 쓰지 않을까?)
  • 분산 빠르게 구하기 : ∑x^2 / n - μ^2
  • 표준 점수(z 점수) : 새로운 데이터가 평소 보다(평균, 표준편차 기준) 잘 했는지 못 했는지 판별
  • z = x-μ / σ : 이것은 μ = 0 이고 σ = 1 인 이론적 z분포를 따르는 데이터로 변환하는 것 임. 따라서 각기 다른 평균값과 표준편차를 갖는 데이터 집합을 비교할 수 있음.
  • P161 이해 안됨

4장 - 확률 계산 하기
  • 사건(event) : 확률을 속성으로 갖는 어떤 결과나 발생
  • 확률 = 이길 수 있는 경우의 수 / 전체 경우의 수 => P(A) = n(A) / n(S) : P(A)는 사건 A가 일어날 확률, S는 가능성 공간 혹은 표본 공간, 모든 사건은 S의 부분집합
  • 벤다이어그램
  • 여사건 : A의 여사건은 A`(A가 일어나지 않는 사건), 상호배반
  • P(A) + P(A`) = 1, P(A`) = 1 - P(A)
  • 배반사건, 교사건
  • 배반사건이면 두 확률을 더할 수 있지만 교사건이면 더할 수 없음
  • Intersection : A∩B, AND, 곱하기 / Union : AUB, OR,  더하기
  • 배반 => P(A∩B) = 0 / 전체 => P(AUB) = 1
  • P(AUB) = P(A) + P(B) - P(A∩B)
  • 조건부확률(B가 주어질 때 A의 확률) : P(A|B) = P(A∩B) / P(B)
  • 확률 트리
  • 전화률의 법칙 : P(B) = P(A∩B) + P(A`∩B) = P(A)P(B|A) + P(A`)P(B|A`)
  • 베이즈의 정리 : P(A|B) = P(A∩B) / P(B) = P(A)P(B|A) / P(A)P(B|A) + P(A`)P(B|A`)
  • 스펨메일 분류에 베이즈 정리가 쓰임 : P(스펨|A단어포함)
  • 종속 : P(A|B) != P(A)
  • 독립 : P(A|B) = P(A) -> P(A|B) = P(A∩B) / P(B) = P(A) -> P(A∩B) = P(A)P(B)
  • 위의 식에 따라서 독립인 사건이 연속으로 일어날 확률은 각 확률을 곱하면 됨
  • 독립은 상호배반일 수 없음, 상호배반은 A가 일어난 경우 B가 일어날 수 없기 때문에 종속적

5장 - 이산확률분포 구하기
  • 확률 분포 : 확률 변수(값이 특정 확률과 관계된 변수)들의 확률을 미리 구해서 나타내는 것.
  • 이산(discrete) : 값이 명확하게 구별되는 것.
  • P(X=x) : 변수 X가 특정 값을 가질 확률
  • 기대치 : E(X) = ∑xP(X=x), 한 게임 당 확률변수 x의 기대치(장기적으로 봤을 때 기대치)
  • 분산 : Var(X) = E(X-μ)^2 = ∑((x-μ)^2 * P(X=x))
  • 표준편차 : sqrt(분산)
  • 선형 변환 : E(aX+b) = aE(X)+b / Var(aX+b) = a^2 * Var(X)
  • 각 게임은 사건이라고 하고, 각 게임의 결과 값은 관측 이라고 함.
  • 독립관측에 대한 기대치와 분산(동일한 확률분포) : E(X1 + X2 + ... + Xn) = nE(X) / Var(X1 + X2 + ... + Xn) = nVar(X)
  • 서로 다른 두 확률분포의 기대치와 분산
  1. E(X+Y) = E(X) + E(Y)
  2. E(X-Y) = E(X) - E(Y)
  3. Var(X+Y) = Var(X) + Var(Y)
  4. Var(X-Y) = Var(X) + Var(Y) : 빼도 변동은 증가하므로 또 분산은 제곱하기 때문에 두 분산을 더함
  5. 선형변환에도 그대로 적용됨
  • P275 다시한번 풀기

6장 - 순열과 조합
  • 배열의 공식(팩토리얼) : n! = n * (n-1) * ... * 3 * 2 * 1
  • 원형배역의 경우 : (n-1)!
  • 0! = 1, 1! = 1
  • P291 브레인 파워, P295 3번
  • 종류에 따라 배열(중복제거) : n! / j!*k!*m!... -> n 전체 수, jkm 각 종류 개체 수
  • 순열 : n개의 사물에서 r개의 사물을 골라내어 배열(순서 상관 있음) : nPr = n! / (n-r)!
  • 조합 : n개의 사물에서 r개의 사물을 골라내어 배열(순서 상관 없음) : nCr = n! / r!(n-r)!
  • P304~305 연습문제

7장 - 기하, 이항, 푸아송 분포
  • 기하분포
  1. 일련의 독립시행
  2. 성공 아니면 실패, 성공확률 항상 동일
  3. 첫 성공을 위한 시행횟수가 관심사
  4. P(X=r) = p * q^r-1 : p 성공확률, q 실패확률 q = 1 - p
  5. 최빈값은 항상 1
  6. 부등식 : P(X>r) = q^r / P(X<=r) = 1 - q^r
  7. X~Geo(p) : X가 기하분포를 따른다는 표시
  8. 기하분포의 기대치 : E(X) = 1 / p (성공확률이 0.2라면 20% 즉 5번에 1번 성공임으로 맞음)
  9. 기하분포의 분산 : Var(X) = q / p^2
  • 이항분포
  1. 일련의 독립시행
  2. 성공 아니면 실패, 성공확률 항상 동일
  3. 시행횟수 한정됨, 성공의 수가 관심사
  4. P(X=r) = nCr * p^r * q^n-r
  5. X~B(n, p)
  6. E(X) = np, Var(X) = npq
  7. 최빈값 = np 와 비슷
  • 푸아송분포
  1. 개별적 사건이 주어진 구간에 임의로 그리고 독립으로 발생(구간은 공간 혹은 시간 등)
  2. 해당 구간에서 사건이 발생하는 수의 평균값이나 비율을 알고 있음
  3. X~Po(λ) : λ 평균값
  4. P(X=r) = (e^-λ * λ^r) / r! : e 는 2.718 상수
  5. E(X) = λ, Var(X) = λ
  6. 최빈값 = 정수가 아니면 λ, 정수면 λ - 1
  7. 각기 다른 푸아송분포를 따르는 독립확률변수는 P(X+Y) = P(X) + P(Y), E(X+Y) = E(X) + E(Y) 이므로 X+Y~Po(λx+λy)
  8. 이항분포에 대한 푸아송분포의 근사치 : 이항분포의 n!은 n이 크면 구하기 어려움, X~B(n, p)와 X~Po(λ)가 비슷한 상황이면 푸아송으로 해결 가능(λ가 np와 비슷, λ가 npq와 비슷), n 이 크고 q가 1에 가까우면(즉, p가 작으면) 비슷함
  • 위 세 분포는 이산확률분포의 종류


8장 - 정규분포 사용하기 1

  • 이산 데이터는 딱 떨어지는 수치 데이터(껌의 개수 등)
  • 연속 데이터는 딱 떨어지지 않는 수치 데이터로 범위로써 확률을 구해야 함, 대게 세어지기 보다 측정됨(10~11cm 사이의 끈 등)
  • 연속확률분포의 확률은 특정 범위를 확률밀도함수를 통해 구함
  • 확률밀도함수 선 아래 면적의 합은 1
  • f(x) = 0.05, P(X>5) = (20 - 5) * 0.05 (단, 0 <= X <= 20)
  • 정규분포 : 소개팅에서 나보다 키가 큰 사람을 만날 확률을 찾는다고 해보자. 대부분의 사람은 평균키에 가까울 것이기 때문에 분포가 가운데는 높고 양 옆은 동일하게 낮은 모양을 하게 될 것이다(종 모양). 대부분의 경우가 이런 형태의 분포를 가질 것으로 예상된다. 이것이 정규분포이며, 연속데이터를 위하 이상적인 모델이다.
  • 정규분포는 평균값 μ, 분산 σ^2을 갖는다. 분산에 따라 정규분포의 넓이가 달라짐
  • 정규분포에서 확률밀도가 0이 되는 부분은 없다. 어떤 경우에도 발생할 수 있는 일말의 가능성은 있다는 뜻이다.
  • 정규분포에서 확률찾기
  1. 분포와 범위 확인(μ, σ를 찾아야 함)
  2. 표준화(Z = (X - μ) / σ로 Z~N(0, 1)인 표준정규분포를 따르도록 변형)
  3. 확률테이블로 확률찾기(표로 P(Z<z) 찾기, P(Z>z) = 1 - P(Z<z), P(a<Z<b) = P(Z<b) - P(Z<a)
  4. 정규분포의 또 다른 이름은 가우시안 분포


9장 - 정규분포 사용하기 2

  • X~N(μ1, σ1), Y~N(μ2, σ2)
  • X+Y~N(μ1+μ2, σ1+σ2)
  • X-Y~N(μ1-μ2, σ1+σ2)
  • 정규분포도 똑같이 선형변형, 독립관측 적용 가능
  • 선형변형 : 특정한 길이의 밧줄에서 밧줄 길이 변화
  • 독립관측 : 특정한 길이의 밧줄에서 밧줄 개수 변화
  • 특정한 상황에서 이항분포를 정규분포로 대체하여 근사치를 구할 수 있음
  • n = 40 일 때, 이항분포에서 P(X>30)을 구하려면 P(31)+P(32)+...+P(40) 이런식으로 너무 많은 계산을 해야 함
  • 그래서 X~B(n, p)에서 np > 5, nq > 5 라면(이 조건에 맞으면 정규분포의 모양에 가까워짐) X~N(np, npq)의 정규분포로 대체 가능
  • 하지만 이산과 연속 확률분포의 차이가 존재 하므로, 연속성 보정을 해줘야 함
  • 연속성 보정 : P(X<6) 일 때, 이산은 1, 2, 3, 4, 5 지만 연속은 6이 5.5 ~ 6.5 사이기 때문에 P(X<5.5)로 계산해야 함
  • 푸아송분포도 동일한 이유로 정규분포를 통해 구해야할 경우가 생김
  • X~Po(λ) 이면 X~N(λ, λ)로 대체 가능(단, λ > 15 일 때), 역시 연속성 보정 해야 함

10장 - 통계 표본 사용하기
  • 모집단(population) : 총조사(census) 또는 전수조사
  • 표본(sample) : 표본조사(sample survey), 모집단을 잘 대표해야 함
  • 표본 설계 방식
  1. 목표 모집단 정의 : 명확하게 얻고자하는 데이터를 정의 함
  2. 표본단위 정의 : 풍선껌 한개인지, 한 박스인지 등
  3. 표본틀 정의 : 표본을 위해 선택할 수 있는 대상을 모두 나열한 것. 각 표본단위에 이름이나 번호를 붙이면 좋음
  • 잘 못 설계 시 편향(bias)가 발생해 모집단을 제대로 대표하지 못 함
  • 편향의 뿌리
  1. 일부항목 배제된 표본틀
  2. 잘못된 표본단위
  3. 답이 일부 누락된 설문지가 표본으로 사용될 경우
  4. 잘못 설계된 설문지 문항
  5. 임의로 선택되지 않은 표본
  • 표본 고르기
  1. 단순 무작위 추출 : 복원추출/비복원추출, 제비뽑기/난수발생기, 여전히 모집단을 제대로 반영하지 못할 가능성이 존재함
  2. 계층화 추출 : 빨강, 파랑 등 색깔 별로 나누고 색깔 별로 표본을 무작위로 추출. 단, 비율은 유지함(층을 서로 다르게)
  3. 군집 추출 : 풍선껌 통단위 판매 시 통이 군집, 군집 단위로 무작위 추출(군집끼리 서로 비슷하게)
  4. 계통 추출 : 몇개 씩 건너뛰며 추출, 모집단에 패턴이 존재할 경우 편향 가능성 존재함

11장 - 모집단과 표본 추정하기
  • 점추정 : 표본 기반 모지단 파라미터 예측
  • μ의 점추정은 μ⌒, σ^2의 점추정은 σ^2⌒, 모집단의 성공비율 p의 점추정은 p⌒
  • 표본평균 X ̄ = μ⌒, 표본분산 s^2 = σ^2⌒, 표본성공비율 ps = p⌒
  • 비율의 표본분포 : 하나의 모집단에서 동일한 크기를 갖는 여러개 표본을 추출. 각 표본이 갖는 비율에 따라 비율의 표본분포가 형성
  • X~B(n, p) ; n은 표본개수, p는 모집단 성공비율
  • ps = X / n, E(ps) = p, Var(ps) = pq / n
  • sqrt(Var(ps)) = 비율의 표준오차(모집단 비율과의 오차)
  • n > 30(분산을 보면 n이 클수록 표준오차가 줄어듬, 따라서 n이 크면 대부분 p에 가깝게 되는 정규분포를 따름) 이면 ps~N(p, pq / n)
  • 연속성 보정 값은 +- 1 / 2n
  • 특정 모집단이 주어질 때 표본의 성공확률을 계산할 수 있어 유용
  • p507 연습문제
  • 평균의 표본분포(X ̄ 의 표본분포) : 동일 모집단에서 추출된 크기 n을 갖는 모든 표본들의 평균값이 갖는 분포
  • E(X ̄) = μ, Var(X ̄) = σ^2 / n
  • 평균값의 표준오차 = sqrt(Var(X ̄))
  • 중심극한정리 : n > 30 일 때, X~N(μ, σ^2) 이면 X ̄~N(μ, σ^2 / n)
  • Z값이 너무 작아 확률테이블에서 찾을 수 엇ㅂ으면 거의 일어나지 않는 일이라고 가정
  • p492 수학적 근거는?

12장 - 신뢰구간 구성하기
  • 점추정은 최선의 예측이지만 틀릴 수 있음. 따라서 일정 오차를 제외한 구간(범위)로써 추정해야 함(63.5분 X, 55~65분 사이 O)
  • P(a<μ<b) = 0.95 : a와 b사이에 μ가 있을 확률이 95%가 되도록 설정
  • a~b가 신뢰구간, 95%는 신뢰수준
  • 신뢰구간 설정하기
  1. 모집단 통계 선택 : 예) μ에 대한 신뢰구간을 구해야 함
  2. 표본분포 찾기 : E(X ̄) = μ, Var(X ̄) = σ^2 / n, μ의 신뢰구간을 구하므로 이것을 제외하고 나머지들은 실제 값으로 치환(σ^2 -> s^2 하여 표본의 실수치 대입), 최종적인 표본분포 X ̄~N(μ, s^2 / n)
  3. 신뢰수준 정하기 : 90%, 95%, 99%, 클 수록 신뢰구간도 넓어지는데 너무 크게 잡으면 의미가 없어짐(풍선껌 지속시간이 0분에서 3일간이라고 한다면 의미가 없음) 따라서 최대한 좁히되 실제 평균값이 들어간다는 확신이 생길만큼만 넓힌다.
  4. 신뢰한계 찾기 : 95% 신뢰수준에서 P(X ̄<a) = 0.025, P(X ̄>b) = 0.025 이므로 확률테이블로 a와 b를 구할 수 있음, 그리고 a < (X ̄ - μ) / s < b 에서 상수들을 대입하고 식을 정리하면 최종적으로 신뢰한계가 얼마<μ<얼마 이렇게 나옴
  • p544 공식 참조
  • σ^2 을 모르고 n < 30 이면, 정규분포가 아닌 t분포를 따른다
  • T~t(v)
  • 표준점수 T = (X ̄ - μ) / sqrt(s^2 / n)
  • 신뢰구간은 X ̄ +- < s / n (n이 크면 신뢰구간이 좁아지고, n이 작으면 신뢰구간이 넓어짐)
  • t분포 사용 이유 : σ^2⌒ = s^2 / n 에서 n이 작으면 표본분산에 가까워지므로 추정이 부정확해짐. t분포는 v(자유도;n-1)로 n의 영향에 따라 분포모양이 변함. n이작으면 자유도도 작아져 분포가 평평해지며, 넓은 신뢰구간도 커버할 수 있게 됨
  • 신뢰구간 공식 : (X ̄ - t*(s/sqrt(n)), X ̄ + t*(s/sqrt(n))), t는 t테이블에서 v와 p(꼬리 확률;신뢰수준 95%일 때 0.025)로 구할 수 있음

13장 - 가설검정 하기
  • 가설검정 : 어떤 통계적 주장이 있을 때 이를 올바르다고 생각하고 증거를 확인하여 주장이 맞는지 검정하는 것
  • 가설검정 하기
  1. 가설 결정 : 영가설 또는 귀무가설(H0) - 검정할 대상 가설로 사실로 가정함, 대립가설(H1) - H0의 반대의견으로 H0 기각 시 받아질 가설(ex, H0 : p=0.9, H1 : p<0.9)
  2. 검정통계 선택 : 이항, 정규 등
  3. 기각역 정하기 : 기각역 - 영가설에 극단적으로 반하는 값들의 집합, 기각치(c) - 기각역의 경계 값, 유의수준 1%, 5% 등에 따라 정해짐, P(X<c) < α(유의수준) 이면 기각, 왜냐하면 이 확률분포에서 표본의 결과가 일어날 확률이 이렇게 작은데 일어났다는게 이상하기 때문에 기각함
  4. p-값 찾기 : P(X<c)가 p-값 (ex, P(X<11) = 0.0555)
  5. 기각역 안에 들어오는지 확인
  6. 결정 내리기
  • 검정 전에 유의수준을 결정해야 함(공정성을 위함)
  • 표본 개수에 따라 결과가 바뀌기도 함, 가설검정은 증거를 찾기위함(표본수가 높을 때 증거를 찾을 수 도 있음)
  • 통계적 유의 : 통계적으로 의미가 있음
  • 가설검정 결과가 옳다고 절대적으로 확신 할 수 없음(예, 표본이 편향된 경우 등)
  • 가설검정을 유의성 검정이라고도 함
  • 1종 오류(type1) : H0가 참인데 기각한 경우
  • 2종 오류(type2) : H0가 거짓인데 받아들인 경우
  • 검정력 : 잘못된 H0를 올바르게 기각하는 확률
  • P(1종오류) = α(유의수준)
  • P(2종오류) : 기각역 z < -1.64 일 때, (X - μ) / σ >= -1.64 가 H0를 받아들이는 것이다. H0 분포가 X~N(90, 3^2) 이라고 한다면 H0기준에서 H0를 기각하지 않는 것은 (X - 90) / 3 >= -1.64 정리하면 X >= 85.08 이다. 2종오류는 H1을 채택해야하는데 H0를 기각하지 않은 것이므로, H1 분포가 X~N(80, 16) 일 때, P(X >= 85.08) 를 구하면 2종오류의 확률이 된다.
  • 1종오류도 2종오류 계산법으로 계산해보면 결국 α 다.
  • 검정력(power)는 P(2종오류) 의 정반대이므로 1-β

14장 - χ^2 분포
  • χ^2(카이제곱)은 실제 일어난 관측 값과 기대 값 사이의 분포를 말하며, 이를 통해 의심되는(뭔가 문제가 있다는 것) 결과의 원인을 분석할 수 있음
  • 검정통계 x^2 = Σ(O-E)^2 / E : 여기 x는 카이가 아님, O는 관측도수, E는 기대도수이며, 이 값이 크면 관측 값과 기대 값 사이에 차이가 있고 작으면 차이가 없는 것
  • E로 나누는 이유는 두 차이가 기대도수에 비례하게 만들기 위함(ex, 30/10 = 3/1 = 1:3, 즉 30은 10의 3배 비율, 이것이 나누기의 의미 중 하나)
  • χ^2 분포는 적합도(goodness of fit) 검사와 독립성(independence) 검사에 사용 됨
  • χ^2 분포는 v(뉴; 자유도; degress of freedom)에 따라 모양이 바뀜
  • v가 클 수록 정규분포에 가까운 모양이 됨
  • X^2~χ^2(v) : X^2 은 v의 값을 갖는 χ^2 분포를 따른다는 뜻
  • v = 관측도수 - 제약의수
  • χ^2 의 유의성은 유의수준 α에 의해 결정되며, 무조건 상위꼬리 단측검정을 실시 함
  • P(χ^2α(v) > x) = α : x는 χ^ 확률테이블로 구함(α와 v를 알고 있으면 됨)
  • 검정통계 x^2이 위에서 구한 x보다 크면 H0 기각
  • 이런 것을 χ^2 적합도 검정이라고 함(A가 B에 맞는지(적합한지) 검정)
  • 자유도 구하기
  1. 이항분포 p 앎 : v = n-1, p 모름 : v = n-2
  2. 푸아송분포 λ 앎 : v = n-1, λ 모름 : v = n-2
  3. 정규분포 μ, σ^2 앎 : v = n - 1, μ, σ^2 모름 : v = n-3
  4. 모르는 것은 관측도수로부터 추정함
  • χ^2 독립성 검정 : 어느 두 요소가 서로 독립인지 뭔가 연관성이 있는지 검정
  • 분할표(contingency table)로 시각화 할 수 있음
  • 예) 쿠르피에와 승리가 연관성이 있는지(쿠르피에에 따라 승부조작 의혹)
  • 기대도수를 관측도수를 이용해 구해야함
  • 만약 독립이라면 P(A∩B) = P(A) * P(B)
  • P(승리) = 승리총합 / 전체총합, P(쿠르피에A) : 쿠르피에A총합 / 전체총합, P(A승리) = P(승리) * P(A), A승리 기대도수 = P(승리) * 전체총합
  • 분할표 기준으로 보면, 기대도수 = (행총합 * 열총합) / 전체총합
  • 이렇게 구한 기대도수들로 X^2을 각각 구해서 합한다.
  • 자유도는 (행수-1)*(열수-1)
  • 나머지는 적합성 검정과 동일

15장 - 상관과 회귀
  • 우리는 지금까지 일변량 데이터(univariate)를 다뤘음(카지노에서 돈을 딸 확률, 남자 키 등). 이는 두 데이터 집합 간의 연겨고리를 설명 할 수 없음. 하지만 이변량 데이터(bivariate)는 가능함
  • 햇볕(시간) 데이터 - 일변량, 햇볕(시간) + 관객수 - 이변량
  • 햇볕이 비치는 시간에 따라 관객수가 어떻게 달라지는가?
  • 햇볕은 독립변수(independent) 또는 설명변수(explanatory) : 관객수를 설명함
  • 관객수는 종속변수(dependent) 또는 반응변수(response) : 햇볕에 반응함
  • 이변량 데이터 시각화(패턴 찾기)는 산포 다이어그램(scatter diagram)으로 나타낼 수 있음(또 다른 말로 산점도(scatter plot))
  • y축에 종속변수, x축에 독립변수
  • x와 y가 연결고리가 있을 때, 이를 상관(correlation) 이라고 함
  • 상관의 종류
  1. 양수 선형(linear) 상관
  2. 음수 선형 상관
  3. 상관없음
  • 상관이 있다고 인과관계라고 볼 수 없음
  • 이제 예측을 해보자. 산점도 점들을 대표할 최량적합선(line of best fit)을 찾아야 함
  • y = ax + b 에서 a와 b 찾기
  • 예측 y와 실제 y의 차가 최소가 되도록 즉, Σ(yi - yi⌒)^2 이 최소가 되도록 해야 함
  • SSE(sum of squared errors; 제곱오차의 합) = Σ(y - y⌒)^2
  • SSE를 최소로 만드는 a를 찾는 증명은 어려우니 패스하고
  • 공식은 : a = Σ((x-x ̄)(y-y)) / Σ(x-x ̄)^2
  • 모집단이면 μ로 대체
  • a는 기울기(slope) 혹은 경사(gradient)
  • 상관이 없는 데이터도 최량적합선을 찾을 순 있지만 효과가 없기 때문에 예측할 수 없음
  • b 구하기 : 직선은 (x ̄, y ̄) 를 통과해야 함(왜?)
  • 따라서 y ̄ = ax ̄+ b -> b = y ̄ - ax ̄ -> 대입하면 b구해짐
  • 우리가 한 것이 최소제곱회귀(least square regression) 인데, 이건 최량적합선을 이변량 데이터에 맞도록 찾아내는수학적 방법
  • 이건 예측일 뿐이고, 데이터 범위 바깥까지 적용된다는 것을 의미하지 않음
  • 그럼 이 회귀선이 얼마나 정확한 예측을 할 수 있을까?
  • 회귀선은 무상관에도 구할 수 있기 때문에 정확도를 확인할 필요가 있음
  • 회귀선의 정확도는 상관계수(correlation coefficient) 로 알 수 있음
  • 상관계수 r의 범위는 -1 < r < 1로, r = -1 이면 완전 음수선형상관, r = 0 이면 무상관, r = 1 이면 완전 양수상관을 나타냄
  • r = (a * sx) / sy, s는 표준편차(x에 대한 또는 y에 대한), 다른 공식도 있음

부록1 - 못다한 이야기들
  • 점도표, 줄기그림
  • 정규분포에 대한 경험적 법칙 : 68%가 1표준편차, 95%가 2표준편차, 99.7%가 3표준편차 내에 포함된다.
  • 체비세프 법칙 : 모든분포에 해당하는 이야기로, 최소 75%가 2표준편차, 89%가 3표준편차, 94%가 4표준편차 내에 포함된다.
  • 최소제곱회귀의 다른공식 : sx^2 = Σ(x-x ̄)^2 / n - 1, sy^2 =  Σ(y-y ̄)^2 / n - 1, sxy = Σ(x-x)(y-y) / n - 1
  • sxy는 공분산(covariance)로 x와 y가 함께 변화하는지 묘사
  • b = sxy / sx^2, r = sxy / sx*sy
  • 결정계수 r^2, r^2 = 0 이면 y가 x를 설며 못함, r^2 = 1 이면 y가 x를 잘 설명함(0 <= r^2 <= 1)
  • r^2 = 상관계수^2 = Σ(y-y)^2 / (y-y ̄)^2
  • 비선형 관계 : 비선형일 때, 선형형태로 식을 바꿔서 최소제곱회귀를 할 수 있다.
  • ex) y` = ax` + b, y = 1 / (ax + b) 라면 1/y = ax + b 로 바꿔 y` = ax + b 가 됨. 이것으로 최소제곱회기 실행
  • 균일분포 : f(x)가 상수이 분포
  • f(x) = 1 / (b - a), E(X) = (a + b) / 2, Var(X) = (b - a)^2 / 12