Research Stories

고차원 다중오믹스 데이터를 통합한 군집화 (clustering) 방법론 개발

다중 고차원 데이터를 통합적으로 이용하여 군집화를 수행 할 때 발생할 수 있는 데이터들의 이질성 문제 및 중요도 차이의 반영을 엄밀한 통계 및 머신러닝 방법을 통해 해결하였다

통계학과 박세영 교수

  • 고차원 다중오믹스 데이터를 통합한 군집화 (clustering) 방법론 개발
  • 고차원 다중오믹스 데이터를 통합한 군집화 (clustering) 방법론 개발
Scroll Down

통계학과 박세영 교수는 최근 게재된 연구에서 고차원 다중오믹스 데이터를 통합적으로 이용하여 효과적인 군집화 (clustering)를 수행하는 새로운 통계적 방법론을 제안하였다. 다중오믹스 분석은 유전체, 전사체, 단백체 등의 다양한 분자 수준에서 생성된 여러 데이터들의 통합적인 분석을 말한다. 최근들어 고성능 유전체 기술의 발전과 정보 처리 능력의 발달로 인해 다양한 유형의 다중오믹스 데이터를 이용한 통합적 분석이 진행되었다. 특히 다중오믹스 데이터를 사용하여 유사한 질병 병인 및 치료 반응을 가진 환자들로 군집화 하는 것은 단일 데이터 유형을 사용하는 것보다 군집화 결과의 정확성을 향상시킬 가능성이 있다. 하지만 이에 대한 엄밀한 통계적 연구는 미비하였다.


대부분의 연구에서는 다중오믹스 데이터의 고차원성과 이질성으로 인한 어려움으로 인해 환자

군집화 시에 여전히 단일 유형의 데이터만 사용하거나 또는 개별 데이터 유형의 군집화 결과를 임의적으로 평균처리하여 결과를 도출하는 방법을 많이 사용하고 있는데 이는 다양한 데이터에 잠재된 중요한 정보의 손실을 발생시킬 수 있다. 이 연구에서는 각각의 고차원 오믹데이터의 유형을 다른 정보의 표현으로 취급함으로써 동일한 환자에서 측정된 여러 데이터 유형에 다른 가중치를 부여한 새로운 스펙트럼 군집화 방법을 제안하였다. 이론적으로는 제안된 군집화 방법이 단일 데이터를 이용한 군집화 방법보다 더 정확한 군집화 결과를 도출 할 수 있다는 것을 증명하였다. 실제 암환자 데이터에 제안된 방법을 적용하여 얻어진 하위클러스터들은 기존의 군집화 방법들보다 더 명확한 생존패턴의 차이를 보이거나 특정 약물에 대한 이질적인 반응을 보여주는 생물학적으로도 의미있는 결과를 얻을 수 있었다.


박세영 교수는 “이번 연구의 성과는 다중 고차원 데이터를 통합적으로 이용하여 군집화를 수행 할 때 발생할 수 있는 데이터들의 이질성 문제 및 중요도 차이의 반영을 엄밀한 통계 및 머신러닝 방법을 통해 해결하였다는 것이다. 또한 본 연구에서 고려한 군집화 방법에만 제한하지 않고 다중 고차원 데이터를 모티브로 하는 다양한 통계 방법에도 아이디어를 확장시킬 수 있을 것으로 기대된다.” 라고 연구의 의의를 설명하였다.


본 연구는 통계학분야 최고의 저널인 Journal of the American Statistical Association에 게재 되었다.


※ 논문명: Integrating multidimensional data for clustering analysis with applications to cancer patient data


※ 논문출처: https://doi.org/10.1080/01621459.2020.1730853




COPYRIGHT ⓒ 2017 SUNGKYUNKWAN UNIVERSITY ALL RIGHTS RESERVED. Contact us