공부해 봅시다/R-Project

read.table 사용시 주의사항

Anonymous Pathologist 2011. 4. 11. 22:48
사실 엄청난 삽질을 통해서 알아낸 것이기는 한데 X축에 자료의 평가 항목, Y 축에 증례를 기록하는 일반적인 방식으로 자료를 기록한 경우 R에서 자료를 편하게 불러오는 방법을 확인했다. ㅡ_ㅡ;;

read.table("~~.csv", header = TRUE, sep = ",", row.names=1)

row.names 항목을 사용하면 이 부분이 Y 축의 값으로 빠져 나오게 되는데 이러면, 보통 이 값은 통계 분석이 불가능한 문자열의 나열이다. 이 부분을 제외한 나머지 값은 거의 대부분 통계적으로 처리할 수 있는 항목이어서, 자료를 편리하게 다룰 수가 있다. 특히 내가 삽질한 clustering에서 말이다. ㅡㅡ;;

주의사항으로는 당연한 것이지만, row.names 에 해당할 값에서는 중복된 값이 있어서는 안된다. Microarray 를 사용한 gene expression 자료의 경우 하나의 유전자에 대한 여러 값이 있을 수가 있고, 이럴 때 row.names 에 대항하는 항목을 유전자 이름이나, 염색체 내부의 위치 등으로 해버리면 중복된 값이 있어서 오류가 난다. 중복되는 값을 해결해야 추가 분석이 가능함.

'공부해 봅시다 > R-Project' 카테고리의 다른 글

Quantile Normalization  (0) 2011.04.25
R (64bit) on Ubuntu 10.10  (2) 2011.04.22
EBV 정량 검사  (0) 2011.01.23
임의의 수 만들기  (0) 2010.12.18
Package 설치하기  (0) 2010.09.09