Optimisation de la classification taxonomique des séquences d’amplicon de gènes marqueurs avec le plugin q2-feature-classifier de QIIME 2
Nous avons utilisé le crédit d’impôt pour optimiser et comparer plusieurs classificateurs de taxonomie de séquences de gènes marqueurs. Nous avons évalué deux classificateurs couramment utilisés qui sont enveloppés dans QIIME 1 (Classificateur RDP (version 2.2), legacy BLAST (version 2.2).22)), deux classificateurs de taxonomie de consensus basés sur l’alignement QIIME 1 (le classificateur UCLUST par défaut disponible dans QIIME 1 (basé sur la version 1.2.22q), et SortMeRNA (version 2.0 29/11/2014)), deux classificateurs de taxonomie de consensus basés sur l’alignement récemment publiés dans q2-feature-classificateur (basé sur BLAST+ (version 2.6.0) et VSEARCH (version 2.0.3)), et une nouvelle machine Bayes naïve multinomiale – classificateur d’apprentissage dans q2-feature-classificateur (voir la section « Méthodes » pour plus d’informations sur les méthodes q2-feature-classificateur et la disponibilité du code source). Nous avons effectué des balayages de paramètres pour déterminer les configurations de paramètres optimales pour chaque méthode.
Évaluations de communautés fictives
Nous avons d’abord comparé les performances du classificateur sur des communautés fictives, qui sont des mélanges artificiels de cellules microbiennes ou d’ADN combinés à des ratios connus. Nous avons utilisé 15 communautés simulées de gènes ARNr bactériens 16S et 4 communautés simulées d’espaceurs transcrits internes fongiques (ITS) (tableau 1) provenant de mockrobiota, un référentiel public pour les données de communautés simulées. Les communautés simulées sont utiles pour l’analyse comparative des méthodes car (1) contrairement aux communautés simulées, elles permettent des évaluations quantitatives de la performance de la méthode dans des conditions de fonctionnement réelles, c’est-à-dire en incorporant des erreurs de séquençage réelles qui peuvent être difficiles à modéliser avec précision; et (2) contrairement aux échantillons de communautés naturelles, la composition réelle d’une communauté simulée est connue à l’avance, ce qui permet des évaluations quantitatives de la précision du profilage des communautés.
Une priorité supplémentaire était de tester l’effet de la définition de poids de classe sur la précision de la classification pour le classificateur Bayes naïf implémenté dans q2-feature-classificator. Dans l’apprentissage automatique, les poids de classe ou probabilités antérieures sont des vecteurs de poids qui spécifient la fréquence à laquelle chaque classe doit être observée (et doivent être distingués de l’utilisation de ce terme sous l’inférence bayésienne comme distribution de probabilité de vecteurs de poids). Une alternative à la définition de poids de classe consiste à supposer que chaque séquence de requête est également susceptible d’appartenir à l’un des taxons présents dans la base de données de séquences de référence. Cette hypothèse, connue sous le nom de prieurs de classe uniforme dans le contexte d’un classificateur naïf de Bayes, est faite par le classificateur RDP, et son impact sur la précision de la classification des gènes marqueurs n’a pas encore été validé. Le fait de supposer que les poids des classes sont uniformes ou connus dans une certaine mesure affectera les résultats et ne peut être évité. Les communautés fictives ont des abondances taxonomiques qui sont loin d’être uniformes sur l’ensemble des taxonomies de référence, comme tout ensemble de données réel le doit. Nous pouvons donc les utiliser pour évaluer l’impact de la formulation d’hypothèses concernant les poids des classes. Lorsque nous avons défini les poids de classe sur la composition taxonomique connue d’un échantillon, nous avons étiqueté les résultats « sur mesure ».
Nous avons évalué la précision des performances du classificateur sur des séquences de communautés fictives classées aux niveaux taxonomiques de la classe à l’espèce. Les séquences de communautés fictives ont été classées en utilisant le gène de l’ARNr 16S OTUS à 99% de Greengenes ou ses séquences de référence UNITE à 99% OTUs pour les communautés fictives bactériennes et fongiques, respectivement. Comme prévu, la précision de la classification diminuait à mesure que la profondeur de la classification augmentait, et toutes les méthodes pouvaient prédire l’affiliation taxonomique de séquences de communautés fictives jusqu’au niveau du genre avec des mesures F médianes supérieures à 0,8 pour tous les ensembles de paramètres (minimum: UCLUST F = 0,81, maximum: naïve Bayes bespoke F = 1,00) (Fig. 1 bis). Cependant, l’affiliation des espèces a été prédite avec une précision beaucoup plus faible et plus variable selon les configurations de méthode (minimum médian de la mesure F: UCLUST F = 0,42, maximum: naïve Bayes bespoke F = 0.95), soulignant l’importance de l’optimisation des paramètres (discutée plus en détail ci-dessous). La figure 1a illustre les diagrammes linéaires de la mesure F moyenne à chaque niveau taxonomique, moyennés dans toutes les configurations de classificateurs; par conséquent, la performance du classificateur est sous-estimée pour certains classificateurs qui sont fortement affectés par les configurations de paramètres ou pour lesquels une plus large gamme de paramètres a été testée (par exemple, les Bayes naïves). Comparer uniquement des méthodes optimisées (i.e., les configurations de paramètres les plus performantes pour chaque méthode), naive Bayes bespoke a obtenu une mesure F significativement plus élevée (test t apparié P < 0,05) (Fig. 1b), rappel, taux de détection des taxons, taux de précision des taxons (Fig. 1c), et une différence de Bray-Curtis inférieure à celle de toutes les autres méthodes (Fig. 1d).
Les communautés fictives sont nécessairement simplistes et ne peuvent pas évaluer les performances de la méthode dans une gamme variée de taxons. Bien que les séquences brutes puissent contenir des erreurs de PCR et de séquençage (ce qui nous permet d’évaluer les performances de la méthode dans des conditions biologiques), les séquences qui correspondent aux séquences simulées de la communauté attendues ne sont pas supprimées de la base de données de référence avant la classification. Cette approche reproduit les conditions de fonctionnement normales et évalue la récupération des séquences attendues, mais peut implicitement biaiser vers des méthodes qui trouvent une correspondance exacte avec les séquences d’interrogation, et ne rapproche pas certaines communautés microbiennes naturelles dans lesquelles peu ou pas de séquences détectées correspondent exactement aux séquences de référence. Par conséquent, nous avons effectué des classifications de lecture de séquences simulées (décrites ci-dessous) pour tester davantage les performances du classificateur.
Classification de taxonomie validée croisée
Les lectures de séquences simulées, dérivées de bases de données de référence, nous permettent d’évaluer les performances des méthodes dans une plus grande diversité de séquences qu’une seule communauté fictive englobe généralement. Nous avons d’abord évalué les performances du classificateur en utilisant une validation croisée stratifiée de la classification de taxonomie pour des lectures simulées. La stratégie de validation croisée du pli-k est légèrement modifiée pour tenir compte de la nature hiérarchique des classifications taxonomiques, que tous les classificateurs de cette étude (à l’exception de l’ancien BLAST) gèrent en attribuant le niveau taxonomique le plus bas (c’est-à-dire le plus spécifique) lorsque la classification dépasse un seuil de « confiance » ou de « consensus » défini par l’utilisateur (voir matériaux et méthodes). La modification consiste à tronquer toute taxonomie attendue dans chaque ensemble de tests au niveau maximal auquel une instance de cette taxonomie existe dans l’ensemble de formation.
Des lectures simulées ont été générées à partir du gène de l’ARNr de Greengenes à 99% OTUs 16S ou UNISSENT à 99% OTUs SES séquences de référence. Des lectures simulées du gène de l’ARNr 16S de Greengenes ont été générées à partir des gènes de l’ARNr 16S de pleine longueur (amorces 27F/1492R) et V4 (amorces 515F/806R) et des sous-domaines V1–3 (amorces 27F/534R). Les lectures simulées actuellement disponibles dans crédit d’impôt n’intègrent pas d’erreurs artificielles de PCR ou de séquençage pour plusieurs raisons. Comme nos analyses de communautés simulées évaluent déjà les performances du classificateur dans de vraies conditions expérimentales bruitées, le but des analyses de séquences simulées est d’évaluer les performances théoriques du classificateur (lorsque les correspondances de séquences exactes n’existent pas dans la base de données de référence). De plus, les pipelines d’analyse de séquences d’amplicon de gènes marqueurs utilisent généralement des méthodes de débruitage pour modéliser des profils d’erreur par cycle, filtrer les séquences bruyantes et résoudre les variantes de séquences réelles. Par conséquent, dans nos évaluations, nous simulons un scénario théorique idéalisé (si improbable) dans lequel toutes les erreurs de séquençage ont été débruitées afin de séparer les performances du classificateur des performances du débruiteur. Dans cet ensemble de tests et ci-dessous pour les nouveaux taxons, le classificateur « sur mesure » avait des probabilités antérieures qui étaient déduites de l’ensemble de formation chaque fois qu’il était entraîné.
Classification des lectures validées croisées plus performantes à des niveaux de classification plus grossiers (Fig. 2a), similaire à la tendance observée dans les résultats simulés de la communauté. Pour les séquences bactériennes, la précision moyenne de la classification pour toutes les méthodes a diminué par rapport aux scores presque parfaits au niveau de la famille (minimum médian de la mesure F du domaine V4 : BLAST + F = 0,92, maximum: BLAST F = 0,99), mais a conservé des scores précis au niveau de l’espèce (minimum médian: BLAST + F = 0,76, maximum: SortMeRNA F = 0,84), par rapport à certains ensembles de données simulées de la communauté (Fig. 2 bis). Les séquences fongiques présentaient des performances similaires, à l’exception que les performances moyennes de BLAST + et de VSEARCH étaient nettement inférieures à tous les niveaux taxonomiques, indiquant une sensibilité élevée aux configurations de paramètres, et les mesures de F au niveau de l’espèce étaient en général beaucoup plus faibles (minimum médian: BLAST + F = 0,17, maximum: UCLUST F = 0,45) que celles des classifications de séquences bactériennes (Fig. 2 bis).
Les classifications au niveau de l’espèce des séquences simulées du gène de l’ARNr 16S étaient les meilleures avec des configurations UCLUST et SortMeRNA optimisées pour le domaine V4, et des Bayes naïfs et RDP pour le domaine V1-3 et des séquences de gènes de l’ARNr 16S complètes (Fig. 2b). L’UCLUST a obtenu la mesure F la plus élevée pour SA classification (F = 0,51). Cependant, tous les classificateurs optimisés ont atteint des plages de mesure F similaires, à l’exception du SOUFFLE hérité pour SES séquences (Fig. 2b).
Les performances de classification au niveau de l’espèce des lectures simulées du gène de l’ARNr 16S ont été significativement corrélées entre chaque sous-domaine et les séquences géniques complètes (Fig. 2c). Lors de nos tests, les séquences complètes présentaient une précision légèrement inférieure à celle des sous-domaines V1–3 et V4. La performance relative des gènes d’ARNr 16S de longueur totale par rapport aux lectures de sous-domaines hypervariables est variable dans la littérature, et nos résultats ajoutent un autre point de données à la discussion en cours sur ce sujet. Néanmoins, les classifications au niveau des espèces ont donné une forte corrélation entre les configurations des méthodes (Fig. 2c) et des performances optimisées du procédé (Fig. 2b), suggérant que le choix des amorces influe uniformément sur la précision de la classification dans toutes les méthodes. Par conséquent, nous nous sommes concentrés sur les lectures de sous-domaines V4 pour les analyses en aval.
Évaluation de la classification de nouveaux taxons
La classification de nouveaux taxons offre une perspective unique sur le comportement des classificateurs, évaluant la performance des classificateurs lorsqu’ils sont confrontés à un clade « nouveau » qui n’est pas représenté dans la base de données de référence. Un classificateur idéal devrait identifier la lignée taxonomique la plus proche à laquelle appartient ce taxon, mais pas plus loin. Dans cette évaluation, une base de données de référence est sous-échantillonnée k fois pour générer des ensembles de séquences de requête et de référence, comme pour la classification validée par croisement, mais deux distinctions importantes existent: (1) la base de données de référence utilisée pour la classification exclut toute séquence qui correspond à l’affiliation taxonomique des séquences de requête au niveau taxonomique L, le rang taxonomique auquel la classification est tentée; et (2) ceci est effectué à chaque niveau taxonomique, afin d’évaluer les performances de classification lorsque chaque méthode rencontre une espèce, un genre, une famille « nouveaux », etc.
En raison de ces différences, l’interprétation des nouveaux résultats de classification des taxons est différente de celle des classifications simulées de communautés et des classifications validées entre elles. Pour ces derniers, la précision de la classification peut être évaluée à chaque niveau taxonomique pour chaque résultat de classification: la précision moyenne de la classification au niveau de la famille et de l’espèce évalue les mêmes résultats, mais se concentre sur différents niveaux taxonomiques de classification. Pour les nouveaux taxons, cependant, différentes séquences d’interrogation et de référence sont compilées pour la classification à chaque niveau taxonomique et des classifications distinctes sont effectuées pour chacun. Par conséquent, les classifications au niveau des familles et des espèces sont des événements indépendants — l’une évalue la précision des performances de chaque méthode lorsqu’elle rencontre une famille « nouvelle » qui n’est pas représentée dans la base de données de référence, l’autre lorsqu’une espèce « nouvelle » est rencontrée.
Les nouvelles évaluations de taxons utilisent une suite de mesures modifiées pour fournir plus d’informations sur les types d’erreurs de classification qui se produisent. Les calculs de précision, de rappel et de mesure F à chaque niveau taxonomique L évaluent si une classification taxonomique précise a été effectuée au niveau L-1: par exemple, une espèce » nouvelle » devrait se voir attribuer un genre, car la classe d’espèces correcte n’est pas représentée dans la base de données de référence. Toute classification au niveau de l’espèce dans ce scénario est une surclassification (affectant à la fois le rappel et la précision). La surclassification est l’une des mesures clés pour l’évaluation des nouveaux taxons, indiquant dans quelle mesure les nouvelles séquences seront mal interprétées comme des organismes connus. Cette surclassification est souvent hautement indésirable car elle peut conduire, par exemple, à une classification incorrecte de séquences environnementales inconnues mais très probablement inoffensives en tant qu’agents pathogènes connus. Les nouvelles séquences qui sont classées dans le clade correct, mais à un niveau moins spécifique que L, sont sous-classifiées (affectant le rappel mais pas la précision). Les séquences classées dans un clade complètement différent sont mal classées (affectant à la fois le rappel et la précision).
La précision, le rappel et la mesure F augmentent progressivement à partir de scores moyens proches de 0.0 au niveau de la classe, atteignant des scores de pointe au niveau du genre pour les bactéries et au niveau de l’espèce pour les champignons (Fig. 3 bis-c). Ces tendances sont associées à des diminutions graduelles des taux de sous-classification et de classification erronée pour toutes les méthodes de classification, ce qui indique que tous les classificateurs fonctionnent mal lorsqu’ils rencontrent des séquences sans correspondance connue au niveau de la classe, de l’ordre ou de la famille (Fig. 3d, f). Au niveau des espèces, UCLUST, BLAST+ et VSEARCH ont obtenu des mesures F nettement meilleures que toutes les autres méthodes pour la classification des gènes de l’ARNr 16S (P< 0,05) (Fig. 3g). UCLUST a obtenu des mesures F nettement meilleures que toutes les autres méthodes pour SES classifications (Fig. 3g). Les scores de sur-, de sous- et de mauvaise classification sont moins informatifs pour optimiser les classificateurs pour des cas d’utilisation réels, car la plupart des méthodes pourraient être optimisées pour produire des scores proches de zéro pour chacune de ces mesures séparément, mais uniquement par des configurations extrêmes, conduisant à des mesures F qui seraient inacceptables dans n’importe quel scénario. Notez que toutes les comparaisons ont été faites entre des méthodes optimisées pour maximiser (ou minimiser) une seule mesure, et par conséquent les configurations qui maximisent la précision sont souvent différentes de celles qui maximisent le rappel ou d’autres mesures. Ce compromis entre différentes mesures est discuté plus en détail ci-dessous.
La nouvelle évaluation du taxon fournit une estimation de la performance du classificateur à partir d’une base de données de référence spécifique, mais sa généralisation est limitée par la qualité des bases de données de référence disponibles et par l’approche basée sur les étiquettes utilisée pour le partitionnement et l’évaluation. Les clades mal étiquetés et polyphylétiques dans la base de données, par exemple le groupe de clostridium, augmentent la probabilité de classification erronée. Une analyse complémentaire basée sur la similitude de séquence entre une nouvelle requête et un accès de référence supérieur pourrait atténuer ce problème. Cependant, nous choisissons d’appliquer une approche basée sur les étiquettes, car elle reflète mieux le problème biologique que les utilisateurs peuvent s’attendre à rencontrer, c’est-à-dire en utilisant une base de données de séquences de référence particulière (qui contiendra une certaine quantité de taxons mal étiquetés et polyphylétiques inhérents aux ressources actuellement disponibles), quelle est la probabilité qu’un classificateur classe mal une étiquette taxonomique?
Optimisation de la méthode d’évaluation multiple
Les évaluations de classification de la communauté fictive et de la validation croisée ont donné des tendances similaires en matière de performances de configuration, mais l’optimisation des choix de paramètres pour les nouveaux taxons a généralement conduit à des choix sous-optimaux pour la communauté fictive et les tests de validation croisée (Fig. 4). Nous avons cherché à déterminer la relation entre les performances de configuration des méthodes pour chaque évaluation et à utiliser ces informations pour sélectionner les configurations les plus performantes pour toutes les évaluations. Pour la classification au niveau des espèces de séquences de gènes de l’ARNr 16S, les configurations de méthodes qui atteignent des mesures F maximales pour les séquences simulées et validées croisées peuvent mal fonctionner pour la classification de nouveaux taxons (Fig. 4b). L’optimisation est plus simple pour la classification au niveau du genre des séquences de gènes de l’ARNr 16S (Fig. 4a) et pour les séquences fongiques (Fig. 4c, d), pour laquelle les performances de configuration (mesurées en tant que mesure F moyenne) sont maximisées par des configurations similaires parmi les trois évaluations.
Pour identifier les configurations de méthode optimales, nous fixons des seuils minimaux de score de précision pour chaque évaluation en identifiant les ruptures naturelles dans la gamme de qualité scores, sélection de méthodes et de plages de paramètres répondant à ces critères. Le tableau 2 répertorie les configurations de méthodes qui maximisent les scores de précision de la classification au niveau de l’espèce pour les évaluations de communautés simulées, validées croisées et de nouveaux taxons dans plusieurs conditions d’exploitation communes. Les configurations « équilibrées » sont recommandées pour une utilisation générale et sont des méthodes qui maximisent les scores de mesure F. Les configurations » Précision » et » rappel » maximisent la précision et les scores de rappel, respectivement, pour les classifications simulées, validées croisées et nouvelles taxons (tableau 2). Les configurations » nouvelles » optimisent les scores de mesure F pour la classification de taxons nouveaux, et secondairement pour les performances simulées et validées croisées (tableau 2). Ces configurations sont recommandées pour une utilisation avec des types d’échantillons qui devraient contenir de grandes proportions d’espèces non identifiées, pour lesquelles la surclassification peut être excessive. Cependant, ces configurations peuvent ne pas fonctionner de manière optimale pour la classification des espèces connues (c.-à-d. que les taux de sous-classification seront plus élevés). Pour les champignons, les mêmes configurations recommandées pour la » précision » fonctionnent bien pour la classification des nouveaux taxons (tableau 2). Pour les séquences de gènes de l’ARNr 16S, les classificateurs de consensus BLAST+, UCLUST et VSEARCH sont les plus performants pour la classification de nouveaux taxons (tableau 2).
Exécution de calcul
Les plates-formes de séquençage à haut débit (et les expériences) continuent de produire des nombres de séquences croissants, ce qui, même après un filtrage de qualité et une déréplication ou une unité taxonomique opérationnelle les étapes de regroupement communes à la plupart des pipelines d’analyse du microbiome peuvent dépasser des milliers de séquences uniques nécessitant une classification. Un nombre croissant de séquences de requêtes et de séquences de références peut entraîner des temps d’exécution inacceptables, et dans certaines conditions expérimentales, la méthode la plus performante (basée sur la précision, le rappel ou une autre métrique) peut être insuffisante pour gérer un grand nombre de séquences dans un laps de temps acceptable. Par exemple, des délais d’exécution rapides peuvent être vitaux dans des scénarios cliniques, car l’évaluation du microbiome se traduit par une pratique clinique ou des scénarios commerciaux, lorsque de grands volumes d’échantillons et les attentes des clients peuvent limiter les délais d’exécution et la sélection des méthodes.
Nous avons évalué l’exécution de calcul comme une fonction linéaire de (1) le nombre de séquences de requête et (2) le nombre de séquences de référence. La dépendance linéaire est empiriquement évidente à la Fig. 5. Pour ces deux mesures, la pente est la mesure de performance la plus importante. L’interception peut inclure le temps nécessaire à l’entraînement du classificateur, au prétraitement des séquences de référence, à la charge des données prétraitées ou à d’autres étapes de « configuration » qui diminueront de signification à mesure que le nombre de séquences augmente, et sont donc négligeables.