Articles

optimizarea clasificării taxonomice a secvențelor amplicon marker-gene cu qiime 2 Q2-feature-classifier plugin

am folosit tax-credit pentru a optimiza și compara mai multe Clasificatoare taxonomice de secvență marker-gene. Am evaluat două Clasificatoare utilizate în mod obișnuit care sunt înfășurate în QIIME 1 (clasificator RDP (versiunea 2.2) , legacy BLAST (versiunea 2.2.22) ), două Clasificatoare de taxonomie consensuală bazate pe aliniere QIIME 1 (clasificatorul UCLUST implicit Disponibil în QIIME 1 (bazat pe versiunea 1.2.22 q) și SortMeRNA (versiunea 2.0 29/11/2014)), două Clasificatoare de taxonomie consensuală bazate pe aliniere recent lansate în clasificatorul Q2-feature-(bazat pe BLAST+ (versiunea 2.6.0) și VSEARCH (versiunea 2.0.3)) și un nou naiv multinomial Bayes machine-learning clasificator în Q2-feature-clasificator (consultați secțiunea „Metode” pentru informații despre metodele Q2-feature-clasificator și disponibilitatea codului sursă). Am efectuat măsurători ale parametrilor pentru a determina configurațiile optime ale parametrilor pentru fiecare metodă.

evaluări comunitare simulate

am evaluat mai întâi performanța Clasificatorului pe comunități simulate, care sunt amestecuri construite artificial de celule microbiene sau ADN combinate la rapoarte cunoscute . Am folosit 15 bacteriene 16S rRNA gene comunități mock și 4 fungice intern transcrise spacer (ITS) comunități mock (Tabelul 1) provenind din mockrobiota , un depozit public pentru date comunitare mock. Comunitățile simulate sunt utile pentru benchmarking-ul metodei deoarece (1) spre deosebire de comunitățile simulate, acestea permit evaluări cantitative ale performanței metodei în condiții reale de funcționare, adică încorporând erori reale de secvențiere care pot fi dificil de modelat cu exactitate; și (2) spre deosebire de eșantioanele comunității naturale, compoziția reală a unei comunități simulate este cunoscută în avans, permițând evaluări cantitative ale preciziei profilării comunității.

Tabelul 1 comunități Machete integrate în prezent în creditul fiscal

o prioritate suplimentară a fost testarea efectului stabilirii ponderilor clasei asupra preciziei clasificării pentru clasificatorul Bayes naiv implementat în clasificatorul de caracteristici q2. În învățarea automată, greutățile clasei sau probabilitățile anterioare sunt vectori de greutăți care specifică frecvența la care se așteaptă ca fiecare clasă să fie observată (și ar trebui să se distingă de utilizarea acestui termen sub inferența Bayesiană ca distribuție de probabilitate a vectorilor de greutăți). O alternativă la setarea greutăților clasei este să presupunem că fiecare secvență de interogare este la fel de probabil să aparțină oricăruia dintre taxonii prezenți în baza de date a secvenței de referință. Această presupunere, cunoscută sub numele de priors de clasă uniformă în contextul unui clasificator Bayes naiv, este făcută de clasificatorul RDP , iar impactul său asupra preciziei clasificării genei marker nu a fost încă validat. A face fie presupunerea că greutățile clasei sunt uniforme sau cunoscute într-o oarecare măsură va afecta rezultatele și nu poate fi evitată. Comunitățile simulate au abundențe taxonomice care sunt departe de a fi uniforme față de setul de taxonomii de referință, așa cum trebuie să facă orice set de date reale. Prin urmare, le putem folosi pentru a evalua impactul ipotezelor privind greutățile clasei. În cazul în care am stabilit greutățile clasei la compoziția taxonomică cunoscută a unui eșantion, am etichetat rezultatele „personalizate”.

am evaluat precizia performanței Clasificatorului pe secvențe comunitare simulate clasificate la niveluri taxonomice de la clasă la specii. Secvențele comunitare simulate au fost clasificate folosind Greengenes 99% Otus 16S ARNr genă sau uniți 99% Otus secvențele sale de referință pentru comunitățile simulate bacteriene și fungice, respectiv. Așa cum era de așteptat, precizia clasificării a scăzut pe măsură ce adâncimea clasificării a crescut și toate metodele ar putea prezice afilierea taxonomică a secvențelor comunității simulate până la nivelul genului, cu F-măsuri mediane care depășesc 0,8 în toate seturile de parametri (minim: UCLUST F = 0,81, maxim: naiv Bayes bespoke F = 1,00) (Fig. 1a). Cu toate acestea, afilierea speciilor a fost prezisă cu o precizie mult mai mică și mai variabilă între configurațiile metodei (mediană F-măsură minimă: UCLUST F = 0,42, maximă: Bayes naiv bespoke F = 0.95), subliniind importanța optimizării parametrilor (discutată mai detaliat mai jos). Figura 1a ilustrează parcele liniare ale măsurii medii F la fiecare nivel taxonomic, mediate în toate configurațiile Clasificatorului; prin urmare, performanța Clasificatorului este subestimată pentru unii clasificatori care sunt puternic afectați de configurațiile parametrilor sau pentru care a fost testată o gamă mai largă de parametri (de exemplu, Bayes naiv). Comparând numai metodele optimizate (adică., configurațiile parametrilor de cea mai bună performanță pentru fiecare metodă), naiv Bayes bespoke a obținut o măsură F semnificativ mai mare (testul t asociat P < 0,05) (Fig. 1b), rechemare, rata de detectare a taxonului, rata de precizie a taxonului (Fig. 1c), și mai mică diferență Bray-Curtis decât toate celelalte metode (Fig. 1d).

Fig. 1

performanța Clasificatorului pe seturi de date comunitare simulate pentru secvențele genei ARNr 16S (coloana din stânga) și secvențele its fungice (coloana din dreapta). o medie F-măsură pentru fiecare metodă de clasificare taxonomie (medie în toate configurațiile și toate seturile de date comunitare simulate) de la clasă la nivel de specie. Bare de eroare = 95% intervale de încredere. b medie F-măsură pentru fiecare clasificator optimizat (medie în toate comunitățile simulate) la nivel de specie. c rata medie de precizie a taxonului pentru fiecare clasificator optimizat (medie în toate comunitățile simulate) la nivel de specie. d Distanța medie Bray-Curtis între compoziția preconizată a comunității simulate și compoziția sa, așa cum a fost prezisă de fiecare clasificator optimizat (în medie în toate comunitățile simulate) la nivel de specie. Parcele de vioară arată mediană (punct alb), quartile (bare negre) și estimarea densității nucleului (vioară) pentru fiecare distribuție a scorului. Viorile cu litere mici diferite au mijloace semnificativ diferite (rata de detectare falsă a testului t asociat-corectată P < 0.05)

comunitățile simulate sunt în mod necesar simpliste și nu pot evalua performanța metodei într-o gamă diversă de taxoni. Deși secvențele brute pot conține erori PCR și secvențiere (permițându-ne să evaluăm performanța metodei în condiții biologice), secvențele care se potrivesc cu secvențele de comunitate simulate așteptate nu sunt eliminate din Baza de date de referință înainte de clasificare. Această abordare reproduce condițiile normale de funcționare și evaluează recuperarea secvențelor așteptate, dar poate implicit părtinire către metode care găsesc o potrivire exactă cu secvențele de interogare și nu aproximează unele comunități microbiene naturale în care puține sau deloc secvențe detectate se potrivesc exact cu secvențele de referință. Prin urmare, am efectuat clasificări simulate de citire a secvenței (descrise mai jos) pentru a testa în continuare performanța Clasificatorului.

clasificarea taxonomică validată încrucișat

citirile secvenței simulate, derivate din bazele de date de referință, ne permit să evaluăm performanța metodei într-o diversitate mai mare de secvențe decât cuprinde în general o singură comunitate simulată. Am evaluat mai întâi performanța Clasificatorului folosind validarea încrucișată stratificată k-fold a clasificării taxonomice pentru citirile simulate. Strategia de validare încrucișată k-fold este modificată ușor pentru a ține cont de natura ierarhică a clasificărilor taxonomice, pe care toți clasificatorii din acest studiu (cu excepția legacy BLAST) o gestionează prin atribuirea celui mai mic (adică cel mai specific) nivel taxonomic în care clasificarea depășește un anumit prag de „încredere” sau „consens” definit de utilizator (a se vedea materiale și metode). Modificarea constă în trunchierea oricărei taxonomii așteptate în fiecare set de teste la nivelul maxim la care există o instanță a acelei taxonomii în setul de instruire.

citirile simulate au fost generate de Greengenes 99% OTUs 16S gena ARNr sau unesc 99% Otus secvențele sale de referință. Citirile simulate ale genei ARNr Greengenes 16S au fost generate din gene ARNr 16S de lungime completă (primeri 27F/1492r) și V4 (primeri 515F/806R) și subdomenii V1-3 (primeri 27F/534r). Citirile simulate disponibile în prezent în creditul fiscal nu încorporează erori artificiale din PCR sau secvențiere din mai multe motive. Deoarece analizele comunităților simulate evaluează deja performanța Clasificatorului în condiții experimentale reale zgomotoase, scopul analizelor secvențelor simulate este de a evalua performanța teoretică a Clasificatorului (atunci când potrivirile exacte ale secvențelor nu există în baza de date de referință). În plus, conductele de analiză a secvenței amplicon a genei marker utilizează în mod obișnuit metode de denoizare pentru a modela profilurile de eroare pe rulare, a filtra secvențele zgomotoase și a rezolva variantele de secvență reale. Prin urmare, în evaluările noastre, simulăm un scenariu teoretic idealizat (dacă este puțin probabil) în care toate erorile de secvențiere au fost denoizate pentru a separa performanța Clasificatorului de performanța denoiser. În acest set de teste și mai jos pentru taxoni noi, clasificatorul „personalizat” avea probabilități anterioare care au fost deduse din setul de instruire de fiecare dată când a fost instruit.

Clasificarea citirilor validate încrucișat a avut rezultate mai bune la niveluri mai grosiere de clasificare (Fig. 2a), similar cu tendința observată în rezultatele comunității simulate. Pentru secvențele bacteriene, precizia medie a clasificării pentru toate metodele a scăzut de la scorurile aproape perfecte la nivel de familie (valoarea mediană a domeniului v4 F-măsura minimă: BLAST+ F = 0,92, maximă: legacy BLAST F = 0,99), dar a păstrat totuși scoruri exacte la nivel de specie (media minimă: BLAST+ F = 0,76, maximă: SortMeRNA F = 0,84), în raport cu unele seturi de date comunitare simulate (Fig. 2a). Secvențele fungice au prezentat performanțe similare, cu excepția faptului că performanțele medii BLAST+ și vsearch au fost semnificativ mai mici la toate nivelurile taxonomice, indicând o sensibilitate ridicată la configurațiile parametrilor, iar măsurile F la nivel de specie au fost în general mult mai mici (media minimă: BLAST+ F = 0,17, maximă: UCLUST F = 0,45) decât cele ale clasificărilor secvențelor bacteriene (Fig. 2a).

Fig. 2

performanța Clasificatorului pe seturi de date de secvență validate încrucișat. Precizia clasificării subdomeniului genei rRNA 16S v4 (primul rând), subdomeniului V1–3 (al doilea rând), genei rRNA 16S de lungime completă (a treia remorcare) și secvențelor sale fungice (al patrulea rând). o medie F-măsură pentru fiecare metodă de clasificare taxonomie (medie pentru toate configurațiile și toate seturile de date de secvență validate încrucișat) de la clasă la nivel de specie. Bare de eroare = 95% intervale de încredere. B medie F-măsură pentru fiecare clasificator optimizat (medie pentru toate seturile de date de secvență validate încrucișat) la nivel de specie. Viorile cu litere mici diferite au mijloace semnificativ diferite (rata de detectare falsă a testului t asociat-corectată P < 0,05). corelația c între performanța măsurării F pentru fiecare metodă/clasificare de configurare a subdomeniului V4 (axa x), subdomeniului V1–3 (axa y) și secvențelor genei ARNr 16S de lungime completă (axa z). Inset listează valoarea Pearson R2 pentru fiecare corelație pereche; fiecare corelație este semnificativă (P < 0.001)

clasificările la nivel de specie ale secvențelor simulate ale genei ARNr 16S au fost cele mai bune cu configurații optimizate UCLUST și SortMeRNA pentru domeniul V4 și Bayes naive și RDP pentru domeniul V1-3 și secvențele genei ARNr 16S de lungime completă (Fig. 2b). UCLUST a obținut cea mai mare măsură F pentru clasificarea sa (F = 0,51). Cu toate acestea, toți clasificatorii optimizați au obținut intervale de măsură F similare, cu excepția legacy BLAST pentru secvențele sale (Fig. 2b).

performanța clasificării la nivel de specie a citirilor simulate ale genei ARNr 16S a fost corelată semnificativ între fiecare subdomeniu și secvențele genei de lungime completă (Fig. 2c). În testele noastre, secvențele de lungime completă au prezentat o precizie ușor mai mică decât subdomeniile V1–3 și v4. Performanța relativă a genelor ARNr 16S de lungime completă față de subdomeniile hipervariabile este variabilă în literatură , iar rezultatele noastre adaugă un alt punct de date la discuția în curs a acestui subiect. Cu toate acestea, clasificările la nivel de specie au dat o corelație puternică între configurațiile metodei (Fig. 2c) și performanța metodei optimizate (Fig. 2b), sugerând că alegerea grundului are un impact uniform asupra preciziei clasificării în toate metodele. Prin urmare, ne-am concentrat pe subdomeniul v4 citește pentru analize în aval.

evaluarea clasificării taxonilor noi

clasificarea taxonilor noi oferă o perspectivă unică asupra comportamentului Clasificatorului, evaluând modul în care clasificatorii funcționează atunci când sunt provocați cu o cladă „nouă” care nu este reprezentată în baza de date de referință . Un clasificator ideal ar trebui să identifice cea mai apropiată linie taxonomică căreia îi aparține acest taxon, dar nu mai departe. În această evaluare, o bază de date de referință este subeșantionată de K ori pentru a genera seturi de secvențe de interogare și de referință, ca și pentru clasificarea validată încrucișat, dar există două distincții importante: (1) Baza de date de referință utilizată pentru clasificare exclude orice secvență care se potrivește cu afilierea taxonomică a secvențelor de interogare la nivelul taxonomic L, rangul taxonomic la care se încearcă clasificarea; și (2) aceasta se realizează la fiecare nivel taxonomic, pentru a evalua performanța clasificării atunci când fiecare metodă întâlnește o specie, gen, familie „noi” etc.

datorită acestor diferențe, interpretarea rezultatelor clasificării taxonilor noi este diferită de cea a clasificărilor simulate ale comunității și a clasificărilor validate încrucișat. Pentru acestea din urmă, precizia clasificării poate fi evaluată la fiecare nivel taxonomic pentru fiecare rezultat al clasificării: precizia medie a clasificării la nivel de familie și la nivel de specie evaluează aceleași rezultate, dar se concentrează pe niveluri taxonomice diferite de clasificare. Cu toate acestea, pentru taxonii noi, sunt compilate diferite secvențe de interogare și referință pentru clasificare la fiecare nivel taxonomic și se efectuează clasificări separate pentru fiecare. Prin urmare, clasificările la nivel de familie și specie sunt evenimente independente—unul evaluează cât de precis funcționează Fiecare metodă atunci când întâlnește o familie „nouă” care nu este reprezentată în baza de date de referință, cealaltă când se întâlnește o specie „nouă”.

evaluările taxonilor noi folosesc o suită de valori modificate pentru a oferi mai multe informații despre tipurile de erori de clasificare care apar. Calcule de precizie, rechemare și măsurare F la fiecare nivel taxonomic l Evaluează dacă s-a făcut o clasificare taxonomică exactă la nivelul L-1: de exemplu, unei specii” noi ” ar trebui să i se atribuie un gen, deoarece clasa corectă de specii nu este reprezentată în baza de date de referință. Orice clasificare la nivel de specie în acest scenariu este o overclasificare (care afectează atât rechemarea, cât și precizia) . Overclasificarea este una dintre valorile cheie pentru evaluarea taxonilor noi, indicând gradul în care secvențele noi vor fi interpretate greșit ca organisme cunoscute. Această overclasificare este adesea extrem de nedorită, deoarece poate duce, de exemplu, la clasificarea incorectă a secvențelor de mediu necunoscute, dar cel mai probabil inofensive, ca agenți patogeni cunoscuți. Secvențele noi care sunt clasificate în clada corectă, dar la un nivel mai puțin specific decât L, sunt subclasificate (afectând rechemarea, dar nu precizia) . Secvențele care sunt clasificate într-o cladă complet diferită sunt clasificate greșit (afectând atât rechemarea, cât și precizia) .

precizia, rechemarea și măsura F cresc treptat de la scorurile medii apropiate de 0.0 la nivel de clasă, atingând scoruri maxime la nivel de gen pentru bacterii și specii la nivel de ciuperci (Fig. 3a-c). Aceste tendințe sunt asociate cu scăderi treptate ale ratelor de subclasificare și clasificare greșită pentru toate metodele de clasificare, indicând faptul că toți clasificatorii au performanțe slabe atunci când întâlnesc secvențe fără potrivire cunoscută la nivel de clasă, ordine sau familie (Fig. 3d, f). La nivel de specie, UCLUST, BLAST+ și VSEARCH au obținut măsuri F semnificativ mai bune decât toate celelalte metode pentru clasificările genei ARNr 16S (P < 0,05) (Fig. 3g). UCLUST a obținut măsuri F semnificativ mai bune decât toate celelalte metode pentru clasificările sale (Fig. 3g). Scorurile de supra, sub și clasificare greșită sunt mai puțin informative pentru optimizarea clasificatorilor pentru cazurile de utilizare reală, deoarece majoritatea metodelor ar putea fi optimizate pentru a obține scoruri aproape zero pentru fiecare dintre aceste valori separat, dar numai prin configurații extreme, ducând la F-măsuri care ar fi inacceptabile în orice scenariu. Rețineți că toate comparațiile au fost făcute între metode optimizate pentru a maximiza (sau minimiza) o singură metrică și, prin urmare, configurațiile care maximizează precizia sunt frecvent diferite de cele care maximizează rechemarea sau alte valori. Acest compromis între diferite valori este discutat mai detaliat mai jos.

Fig. 3

performanța Clasificatorului pe seturi de date de secvență simulate de noi taxoni pentru secvențele genei ARNr 16S (coloana din stânga) și secvențele sale fungice (coloana din dreapta). a-f, măsura medie F (a), precizia (b), rechemarea (c), overclasificarea (d), subclasificarea (e) și clasificarea greșită (f) pentru fiecare metodă de clasificare a taxonomiei (medie pentru toate configurațiile și toate seturile de date noi ale secvenței taxonilor) de la filum la nivel de specie. Bare de eroare = 95% intervale de încredere. B medie F-măsură pentru fiecare clasificator optimizat (medie în toate noile seturi de date ale secvenței taxonilor) la nivel de specie. Viorile cu litere mici diferite au mijloace semnificativ diferite (rata de detectare falsă a testului t asociat-corectată P < 0.05)

evaluarea noului taxon oferă o estimare a performanței Clasificatorului dată unei baze de date de referință specifice, dar generalizarea sa este limitată de calitatea bazelor de date de referință disponibile și de abordarea bazată pe etichete utilizată pentru partiționare și evaluare. Clade etichetate greșit și polifiletice în baza de date, de exemplu, grupul clostridium, crește probabilitatea de clasificare greșită. O analiză complementară bazată pe similitudinea secvenței dintre o interogare nouă și un hit de referință de top ar putea atenua această problemă. Cu toate acestea, alegem să aplicăm o abordare bazată pe etichete, deoarece reflectă mai bine problema biologică pe care utilizatorii se pot aștepta să o întâmpine, adică folosind o anumită bază de date de secvențe de referință (care va conține o anumită cantitate de taxoni etichetați greșit și polifiletici inerenți resurselor disponibile în prezent), cât de probabil este un clasificator să clasifice greșit o etichetă taxonomică?

optimizarea metodei de evaluare multiplă

evaluările de clasificare a comunității simulate și a validării încrucișate au generat tendințe similare în ceea ce privește performanța configurației, dar optimizarea opțiunilor parametrilor pentru taxonii noi a dus, în general, la alegeri suboptime pentru comunitatea simulată și testele de validare încrucișată (Fig. 4). Am căutat să determinăm relația dintre performanța configurației metodei pentru fiecare evaluare și să folosim aceste informații pentru a selecta configurațiile care funcționează cel mai bine în toate evaluările. Pentru clasificarea la nivel de specie a secvenței genei 16S rRNA, configurațiile metodei care ating măsuri F maxime pentru secvențe simulate și validate încrucișat pot avea performanțe slabe pentru clasificarea taxonilor noi (Fig. 4b). Optimizarea este mai simplă pentru clasificarea la nivel de gen a secvențelor genei ARNr 16S (Fig. 4a) și pentru secvențe fungice (Fig. 4C, d), pentru care performanța configurației (măsurată ca măsură F medie) este maximizată prin configurații similare între toate cele trei evaluări.

Fig. 4

Classification accuracy comparison between mock community, cross-validated, and novel taxa evaluations. Scatterplots prezintă scoruri medii ale măsurătorilor F pentru fiecare configurație a metodei, medii pe toate probele, pentru clasificarea genelor ARNr 16S la nivel de gen (a) și la nivel de specie (b) și secvențele sale fungice la nivel de gen (c) și la nivel de specie (d)

pentru a identifica configurațiile optime ale metodei, am stabilit praguri minime a scorurilor de calitate, selectarea metodelor și a intervalelor de parametri care îndeplinesc aceste criterii. Tabelul 2 enumeră configurațiile metodelor care maximizează scorurile de precizie a clasificării la nivel de specie pentru evaluările simulate ale comunității, validate încrucișat și taxonilor noi în mai multe condiții comune de funcționare. Configurațiile „echilibrate” sunt recomandate pentru uz general și sunt metode care maximizează scorurile F-measure. Configurațiile „precizie” și „rechemare” maximizează scorurile de precizie și rechemare, respectiv, pentru clasificările simulate, validate încrucișat și taxoni noi (Tabelul 2). Configurațiile ” noi ” optimizează scorurile F-measure pentru clasificarea taxonilor noi și, în al doilea rând, pentru performanța simulată și validată încrucișat (Tabelul 2). Aceste configurații sunt recomandate pentru utilizarea cu tipuri de eșantioane care se așteaptă să conțină proporții mari de specii neidentificate, pentru care overclasificarea poate fi excesivă. Cu toate acestea, este posibil ca aceste configurații să nu funcționeze optim pentru clasificarea speciilor cunoscute (adică ratele de subclasificare vor fi mai mari). Pentru ciuperci, aceleași configurații recomandate pentru” precizie ” funcționează bine pentru clasificarea taxonilor noi (Tabelul 2). Pentru secvențele genei ARNr 16S, clasificatorii de consens BLAST+, UCLUST și VSEARCH au cele mai bune performanțe pentru clasificarea taxonilor noi (Tabelul 2).

Tabelul 2 metode optimizate configurații pentru condiții standard de funcționare

runtime computațională

platforme de secvențiere de mare randament (și experimente) continuă să producă creșterea numărului de secvențe, care-chiar și după filtrarea și dereplicarea calității sau etapele de grupare a unităților taxonomice comune majorității conductelor de analiză a microbiomului—pot depăși mii de secvențe unice care necesită clasificare. Un număr tot mai mare de secvențe de interogare și secvențe de referințe poate duce la timpi de rulare inacceptabili și, în anumite condiții experimentale, metoda cu performanțe superioare (bazată pe precizie, rechemare sau altă metrică) poate fi insuficientă pentru a gestiona un număr mare de secvențe într-un interval de timp acceptabil. De exemplu, schimbările rapide pot fi vitale în scenariile clinice, deoarece evaluarea microbiomului devine tradusă în practica clinică sau în scenariile comerciale, atunci când volumele mari de eșantioane și așteptările clienților pot constrânge timpii de transformare și selecția metodei.

am evaluat timpul de rulare computațional ca o funcție liniară a (1) numărului de secvențe de interogare și (2) numărului de secvențe de referință. Dependența liniară este evidentă empiric în Fig. 5. Pentru ambele valori, panta este cea mai importantă măsură a performanței. Interceptarea poate include perioada de timp necesară pentru instruirea Clasificatorului, preprocesarea secvențelor de referință, încărcarea datelor preprocesate sau alți pași de „configurare” care se vor diminua ca semnificație pe măsură ce numărul secvențelor crește și, prin urmare, este neglijabil.

Fig. 5

compararea performanței în timpul rulării clasificatorilor de taxonomie. Runtime (e) pentru fiecare clasificator taxonomie fie variind numărul de secvențe de interogare și păstrând o constantă 10.000 secvențe de referință (a) sau variind numărul de secvențe de referință și păstrând o constantă 1 secvență de interogare (b)