본문 바로가기

2022 하계모각코

모각코 6월 29일

계획 -> R통계 군집분석, 분산분석 복습 후 주요개념 정리

 

*R고급통계

data.frame() -> 다양한 데이터를 하나의 테이블에 담을 수 있는 자료구조
stack() -> 데이터를 그룹별로 쌓기
unstack() -> 중복된 값이 있을 떄 쌓여져 있는 컬럼을 서로다른 컬럼으로 분리
head() -> 자료의 앞부분 출력
aov() -> 분산분석 수행
 ㅣ
  v
anova가 필요한 이유 -> 두 개 이상의 집단에 대해 평균비교를 하고자 할 때 
기존의 t-test를 사용한다면, 두 집단씩 짝을 지어 t-test를 진행해야 함
-> 과잉검증 -> 오류 확률 증가 -> 이러한 오류의 확률을 통제한 상황에서 통계
분석을 진행하기 위해 anova실시
oneway.test -> 단방향 레이아웃

-군집 분석
군집분석은 고객을 여러 집단으로 나누는 것이며 적절한 목적으로 나누고 특성 및
차이를 분석하기 위하여 사용
-군집 분석 종류
1. 최단연결법
두 군집 사이 거리를 최단거리로 정의


2. 최장연결법
두 군집 사이 거리를 최장거리로 정의


3. 와드연결법
새로운 군집으로 인해 파생되는 ESS의 증가량을 두 군집 사이 거리로 정의

4. 평균연결법
두 군집 사이의 거리를 각 군집 모든 개체들의 평균거리로 정의


5. k-means
군집을 형성하지 않고 관찰값들을 몇 개의 군집으로 구분

-분산분석
분산분석은 종속변수의 개별 관측치와 이 관측치들의 평균값 사이 변동을 그
원인 따라 몇 가지로 나눠 분석하는 방법

par() -> 그래프의 모양을 다양하게 조절할 수 있는 그래픽 인수들을 설정하고 조회
mfrow -> 그래프를 행우선 배치
mfcol -> 그래프를 열우선 배치

Q 세 종류의 건전지 수명에 차이가 있을까?
a<-c(100,98,85)
b<-c(73,80,75)
c<-c(110,104,91)
life<-data.frame(a,b,c)
b.life=stack(life)
b.life

op=par(mfrow=c(1,2))
boxplot(values~ind,data=b.life)
stripchart(life)


-oneway.test
par(op)
dev.off()
oneway.test(values~ind, data=b.life, var.equal=TRUE)
*var.equal=F로 할 경우 등분산이 아닌 경우에도 검정이 가능

-요인이 두 개인 실험에 대한 분석법 -> 이원배치 분산분석

 v
Q 온도와 압력에 따른 반응값의 차이?
presssure=as.factor(c(320,340,360,310,330,350,300,320,340,310,330,350))
temp=as.factor(c(rep('low',6),rep('high',6)))

'2022 하계모각코' 카테고리의 다른 글

8월 10일 모각코  (0) 2022.08.10
8월 3일 모각코  (0) 2022.08.03
7월 28일 모각코  (0) 2022.08.03
개인공부 7월 14일  (0) 2022.07.14
모각코 7월 6일  (0) 2022.07.10