Post-translational modifications (PTMs) play indispensable roles in a wide array of cellular regulatory events. More than 300 types of PTMs have been reported to occur in vivo, each with potentially different sets of substrate proteins, dynamics, and biological consequences. Due to the enormous complexity of PTMs, systems wide study of PTMs is an active area of research in the field of proteomics. For a more comprehensive understanding of the human PTM proteome, a taxonomy of the types of PTMs and their exact substrate proteins/sites ought to be carried out above all else. This, in turn, requires a large-scale and confident identification of PTMs. Mass spectrometry (MS)-based proteomics has enabled a systems-wide identification of proteins and their amino acid residues that are affected by various PTMs. However, several important limitations and challenges in sample preparation, MS analysis, and bioinformatics have impeded a deeper and wider characterization of PTMs. To tackle some of the major challenges in bioinformatic analysis of PTMs including the high false positive rate of PTMs and the heavy computational burden of database search, we developed methods using diagnostic ions for PTMs. First, we developed a statistical prediction model for the confident identification of citrullination. We systematically identified diagnostic ions for citrullination, and used these diagnostic ions to build a prediction model for assessing the validity of citrullinated PSMs identified by database searching. Application of our model to real biological data showed significantly alleviated false positive rate. We further extended our approach to find false negative citrullination and successfully identified additional citrullinated peptides that the database searching failed to identify. Second, we proposed a database search strategy for the large-scale identification of PTMs using a conventional standard search tool. We introduced a post-acquisition spectra filtering approach to effectively reduce the size of input MS data by retaining only the spectra that contain diagnostic ions of certain PTMs, thus rendering the use of standard search approach for identifying hundreds of PTMs practical. In summary, we proposed methods utilizing PTM diagnostic ions for the large-scale and confident identification of PTMs. Constant improvement of the suggested frameworks will enable achieving a more comprehensive and accurate identification of PTMs in the human proteome.|본 논문은 질량분석 데이터 상의 번역 후 변형 식별에 활용 가능한 진단 이온 기반 예측 모델 및 데이터 필터링 프로토콜에 대해 다룬다. 번역 후 변형은 세포내 여러 조절 작용에 관여하는 것으로 알려져 있다. 300 여 종의 번역 후 변형이 보고되어있고, 각각은 서로 다른 작용 단백질과 다이나믹스, 그리고 생물학적인 효과를 가진다. 이러한 복잡성 때문에, 사람의 번역 후 변형 단백체에 관한 연구는 여전히 초기 단계에 있다. 이를 실현시키기 위해서는 먼저 세포내 번역 후 변형의 종류와 그것들의 작용 단백질 및 아미노산 위치를 광범위하고 정확하게 파악하는 것이 중요하다. 질량분석기 기반 단백체 연구는 시스템적인 번역 후 변형 연구를 가능하게 만들었다. 하지만 샘플 준비 과정, 질량분석 과정, 그리고 생물정보학 분석 과정에서의 여러가지 문제점과 한계점 때문에 번역 후 변형에 대한 시스템적인 연구는 여전히 몇몇 잘 알려진 번역 후 변형에 국한되어왔다. 그 중에서도 생물정보학 분석 과정에서의 여러 문제점들을 해결하기 위해, 우리는 번역 후 변형의 진단 이온을 활용한 방법론을 개발하였다. 첫째, 우리는 질량분석 데이터 상의 번역 후 변형의 일종인 시트룰린화의 정확한 식별을 위해 통계적인 예측 모델을 개발하였다. 먼저 시트룰린화의 진단 이온을 체계적으로 찾아내었고, 그것들을 기반으로 예측 모델을 만들어 데이터베이스 서치가 찾아낸 시트룰린화 결과를 판단하는데 사용하였다. 또한, 실제 생물학 샘플에서 유래된 질량분석 데이터들에 우리가 개발한 예측 모델을 적용하여 거짓 양성과 거짓 음성 문제를 성공적으로 완화시켰다. 둘째, 우리는 통상적으로 사용되는 스탠다드 데이터베이스 서치 툴을 이용한 광범위한 번역 후 변형 식별을 가능케하는 서치 방법을 고안하였다. 질량분석 데이터에서 특정 번역 후 변형 진단 이온을 포함하는 데이터만 필터링하여 이것들을 데이터베이스 서치에 사용하는 것으로, 수백 종의 번역 후 변형에 대한 서치를 가능케하였다. 종합하면, 우리는 번역 후 변형 진단 이온을 활용하여 질량분석 데이터상의 번역 후 변형의 광범위하고 정확한 식별을 가능케하는 방법들을 개발하였다. 여기서 소개된 방법들은 지속적인 향상이 필요하며, 이는 사람의 번역 후 변형 단백체를 이해하는데 유용하게 활용될 것으로 예상한다.
Table Of Contents
Abstract i List of Contents ii List of Tables and Figures iii Chapter 1. Introduction 1 1.1 Post-search PSM evaluation for the confident identification of authentic modification 4 1.2 Pre-search PTM screening for the large-scale identification of PTMs 5 Chapter 2. Systematic search for diagnostic ions for citrullination 6 2.1 Introduction 6 2.2 Results 8 2.3 Discussion 14 2.4 Methods 15 Chapter 3. Development and application of a statistical model for the confident identification of citrullination 27 3.1 Introduction 27 3.2 Results 27 3.3 Discussion 33 3.4 Methods 33 Chapter 4. Development of a search strategy for the large-scale identification of >200 types of PTMs 44 4.1 Introduction 44 4.2 Results 46 4.3 Discussion 49 4.4 Methods 49 Chapter 5. Conclusion 58 REFERENCES 60 요 약 문 63 CURRICULUM VITAE 64 ACKNOWLEDGMENT 66