WEB OF SCIENCE
SCOPUS
This thesis introduces the Knitted Multi-modal Layer Efficient Encoders (KMLEE), a novel Transformer-based architecture, demonstrating its power and versatility in addressing pressing challenges in biological sequence analysis: antimicrobial peptide (AMP) discovery and adeno- associated virus (AAV) capsid engineering. Part 1 focused on AMP identification to combat multi-drug resistance. KMLEE integrates primary amino acid sequences with predicted structural (dihedral angles, contact map-informed positional encoding), dynamic (intrinsic disorder), and solvent accessibility features. Incorporating architectural innovations like modality-specific encoders, Pre-Input Post-Addition Normalisation (PIPA-Norm), and Attention-Guided Pooling (AGP), KMLEE surpassed existing AMP classifiers in performance. Its attention mechanisms further provided biological insights, notably highlighting the significance of proline interactions for AMP function and revealing habitat-specific AMP signatures in metagenomic data, validated by motif analysis. Part 2 explored KMLEE's adaptability for AAV engineering by predicting capsid production fitness (log2 enrichment scores). Transitioned to a regressor, KMLEE-AAV leveraged 7-mer codon sequences and Codon Adaptation Index (CAI) values as distinct modalities. The model achieved a strong Pearson correlation (R) of 0.8964 using codon sequences alone. Crucially, integrating CAI features, which reflect translational efficiency relevant to human cells, enhanced performance to R=0.9020 and improved all error metrics (MSE, RMSE, MAE), underscoring the value of multi-modal, codon-level analysis for predicting AAV manufacturability. The successful application of KMLEE to these disparate tasks—classification with protein-derived features for AMPs, and regression with codon-derived features for AAVs—illuminates the fundamental versatility and generalisability of its multi-modal architectural philosophy. The consistent principles of dedicated encoding pathways and hierarchical feature integration have proven robust across different biological problems and data types. This thesis thus establishes KMLEE as a significant and adaptable methodological advancement. By bridging high-performance prediction with the potential for mechanistic understanding, the KMLEE framework offers a powerful platform for accelerating the discovery and rational design of therapeutics—whether AMPs or AAV gene therapy vectors—and for advancing our comprehension of complex sequence-function relationships. |생물학적 서열 분석을 위한 다중 모드 학습 원리에 관하여: KMLEE(Knitted Multi-modal Layer Efficient Encoders) 프레임워크의 개발 및 항균 펩타이드 식별과 아데노 연관 바이러스 캡시드에의 응용
본 학위 논문은 생물학적 서열 분석의 주요 난제인 항균 펩타이드(AMP) 발굴 및 아데노 연관 바이러스(AAV) 캡시드 공학 문제 해결을 위해 개발된 새로운 트랜스포머 기반 딥러닝 아키텍처, Knitted Multi-modal Layer Efficient Encoders (KMLEE)를 소개하고 그 성능과 다용성을 입증한다.
제 1 부에서는 다제내성 문제 해결을 목표로, AMP 식별 및 특성 규명에 KMLEE 를 적용하였다. KMLEE 는 아미노산 서열 정보에 예측된 구조적(이차 구조, 접촉 지도 기반 위치 인코딩), 동적(고유 무질서 영역), 용매 접근성 특징들을 통합한 다중 모드 표현을 구축한다. 특화된 인코더,
고유한 정규화(PIPA-Norm) 및 풀링(AGP) 전략 등 구조적 혁신을 통해 KMLEE 는 기존 AMP 분류 모델 대비 우수한 성능을 달성했다. 특히 주의 집중 메커니즘은 프롤린 상호작용의 중요성과 같은 생물학적 통찰력을 제공했으며, 메타게놈 분석을 통해 서식지 특이적 AMP 시그니처를 확인했다.
제 2 부에서는 KMLEE 를 AAV 캡시드 생산성(log2 농축 점수) 예측 문제에 적용하여 그 적응성을 탐구했다. 회귀 모델로 변형된 KMLEE-AAV 는 7 량체(7-mer) 코돈 서열과 코돈 적응 지수(CAI)를 별개의 정보 유형으로 활용했다. 코돈 서열만 사용했을 때 모델은 높은 예측력(피어슨 상관 계수 R = 0.8964)을 보였으며, 인간 세포 내 번역 효율성과 관련된 정보를 제공하는 CAI 특징을 통합했을 때 예측 정확도(R = 0.9020) 및 모든 오차 지표(MSE, RMSE, MAE)가 일관되게 개선되었다. 이는 AAV 생산성 예측에서 코돈 수준 정보와 번역 적응성을 함께 고려하는 다중 모드 접근의 유효성을 입증한다.
결론적으로, 상이한 생물학적 문제(AMP 분류 vs AAV 회귀)와 데이터 유형(단백질 특징 vs 코돈 특징)에 대한 KMLEE 의 성공적인 적용은 이 아키텍처 철학의 근본적인 다용성과 일반화 가능성을 보여준다. 즉, 다중 모드 정보의 계층적 통합 원칙은 복잡한 생물학적 서열-기능 관계를 규명하는 강력하고 확장 가능한 전략임을 시사한다. 본 연구는 KMLEE 를 계산 생물학의 중요 방법론적 진보로서 제시하며, 이는 AMP 또는 AAV 벡터와 같은 치료제 설계를 가속화하고 서열-기능 관계에 대한 이해를 심화시키는 데 기여할 것이다.