공부해 봅시다/Pathology

GDC data portal

Anonymous Pathologist 2016. 12. 4. 22:38


오랜만에 TCGA 자료를 바탕으로 figure 를 만들어야 하는 일이 있어서 TCGA data portal 에 들어갔다. 그런데 다운로드 방법이 바뀌었다. 그것도 꽤.. 그래도 방법은 쉽게 확인할 수 있어서 다운받는 중이다. 금방 다운로드가 안되면 내일 병원 linux 컴에서 다운로드 걸어놓아야 겠다. 여기까지는 괜찮았다. 그런데 문제는 지금부터. 아폴로 13 영화에 나오는 유명한 대사가 생각났다.

Tell me this isn't a government operation.

파일명에서 TCGA ID 가 빠져있다. 사실 분석에 큰 문제는 없으나, cBioportal 등 다른 곳에서 분석과 같이 확인하기 위해서는 ID가 필요하다. 그래서 별도의 metadata 를 같이 다운 받아야 한다.

Metadata 의 포맷이 JSON 이라는 생소한 포맷이다. R에서 jsonlite 라는 패키지를 사용하여 파일을 읽어올 수 있었다.

RNA-seq 은 3종류로 제공된다. 원래 값이 있는 count 라는 이름이 들어가는 파일과, RPKM 과 RPKM-UQ 이렇게 3종류. 이전에는 RNA-seqV2 로 분석을 했었는데, 결과 파일이 달라져서 다시 분석해야 한다.