Nonparametric approaches for population structure analysis using CIPs wild potato germplasm collection
Abstract
Wild potato species hold important genes related to disease resistance, tolerance to abiotic stress, and other traits of agronomic interest; however, they remain being the least explored. This study aimed to develop an accessible and replicable R analysis workflow to explore the genetic diversity and population structure of the International Potato Center’s (CIP) wild potato germplasm collection through nonparametric approaches. We worked with single nucleotide polymorphism (SNP) data from 1248 wild potato accessions, most of which had been genotyped for the first time. Genetic diversity parameters were calculated prior to structure analysis. Population structure was analyzed through parametric methods such as variational Bayesian inference, and nonparametric methods, such as dimensionalityreduction and distance-based techniques. Distance-based analysis revealed clustering based on ploidy level, taxonomic clade, and region of origin. Population structure results from different methods revealed significant gene flow between subpopulations, and confirmed similarities in the genetic makeup of individuals from similar geographical regions and with associated taxonomic characteristics. The analysis was programmed such that it can be replicated and scaled according to the researcher’s requirements. Nonparametric methods produced comparable results to those produced through parametric methods, requiring a lower computational cost, and establishing themselves as a practical alternative for population genetics studies. The results of this study provide new insights into the diversity and population architecture of CIPs wild potato collection, allowing researchers to understand the inter and intraspecific genetic relationships between species and broaden the genetic base of potato germplasm. The produced R analysis workflow will allow other crop population genetics studies using SNP data to be carried out in a quicker and more efficient manner, promoting their use in genetic improvement programs. Las especies silvestres de papa poseen genes importantes relacionados a resistencia a enfermedades, tolerancia a estrés abiótico, y otras características de interés agrónomo; sin embargo, continúan siendo las menos exploradas. Esta investigación buscó desarrollar una metodología de análisis accesible y replicable en R para evaluar la diversidad genética y estructura poblacional de la colección de papas silvestres del Centro Internacional de la Papa (CIP) a través de enfoques no paramétricos. Se trabajó con datos de polimorfismo de nucleótido único (SNP) de 1248 accesiones de papa silvestre, de las cuales la mayoría no habían sido genotipadas previamente. Los parámetros de diversidad genética se calcularon antes del análisis de estructura. La estructura poblacional se analizó vía métodos paramétricos, como inferencia variacional Bayesiana, y métodos no paramétricos, como técnicas basadas en reducción de dimensionalidad y distancia genética. El análisis de distancias genéticas reveló agrupaciones según nivel de ploidía, clado taxonómico, y región de origen. Los resultados de estructura poblacional de los distintos métodos revelaron flujo génico significativo entre subpoblaciones, y confirmaron similitudes en la identidad genética de individuos de regiones geográficas similares y con características taxonómicas asociadas. El análisis se programó de manera que pudiera ser replicado y escalado de acuerdo con los requerimientos del investigador. Los métodos no paramétricos utilizados produjeron resultados comparables a los producidos por métodos paramétricos, demandando menor costo computacional, y estableciéndose como una alternativa práctica y efectiva para estudios de genética poblacional. Los resultados de este estudio dan nuevas perspectivas sobre la diversidad y arquitectura poblacional de la colección de papas silvestres del CIP, permitiéndole a otros investigadores entender las relaciones genéticas inter e intraespecíficas de las especies y ampliar la base genética de la papa. La metodología de análisis en R producida permitirá llevar a cabo estudios de genética poblacional con datos SNP en distintos cultivos de manera más rápida y eficiente, promoviendo su uso en distintos programas de mejoramiento genético.
Citation
Ortiz Ruiz, T. F. (2023). Nonparametric approaches for population structure analysis using CIPs wild potato germplasm collection [Tesis de Título Profesional, Universidad de Ingeniería y Tecnología]. Repositorio Institucional UTEC. https://hdl.handle.net/20.500.12815/370Subject
Collections
- Bioingeniería [4]