et pap-smear-analyseværktøj (PAT) til påvisning af livmoderhalskræft fra pap-smear-billeder
billedanalyse
billedanalyserørledningen til udvikling af et pap-smear-analyseværktøj til påvisning af livmoderhalskræft fra pap-smears præsenteret i dette papir er afbildet i Fig. 1.
billedoptagelse
fremgangsmåden blev vurderet ved hjælp af tre datasæt. Datasæt 1 består af 917 enkeltceller af Harlev pap-smear billeder udarbejdet af Jantsen et al. . Datasættet indeholder pap-smear-billeder taget med en opløsning på 0,201 liter af dygtige cytopatologer ved hjælp af et mikroskop forbundet til en rammegribber. Billederne blev segmenteret ved hjælp af Champ-kommercielle programmer og derefter klassificeret i syv klasser med forskellige egenskaber som vist i tabel 2. Af disse 200 billeder blev brugt til træning og 717 billeder til test.
datasæt 2 består af 497 fuld slide pap-smear billeder udarbejdet af Norup et al. . Af disse 200 billeder blev brugt til træning og 297 billeder til test. Desuden blev klassificeringens ydeevne evalueret på datasæt 3 af prøver af 60 pap-udstrygninger (30 normale og 30 unormale) opnået fra Mbarara Regional Referral Hospital (MRRH). Prøver blev afbildet ved hjælp af et Olympus Bh 51 lysfeltmikroskop udstyret med et 40 liter, 0,95 NA-objektiv og et Hamamatsu ORCA-05G 1,4 MP monokromt kamera, hvilket gav en billedstørrelse på 0,25 liter med 8-bit grå dybde. Hvert billede blev derefter opdelt i 300 områder, hvor hvert område indeholdt mellem 200 og 400 celler. Baseret på cytopatologernes meninger blev der valgt 10.000 objekter i billeder afledt af de 60 forskellige pap-smear-dias, hvoraf 8000 var frie liggende cervikale epitelceller (3000 normale celler fra normale udstrygninger og 5000 unormale celler fra unormale udstrygninger) og de resterende 2000 var affaldsgenstande. Denne Pap-smear segmentering blev opnået ved hjælp af Trainable segmentering Toolkit til at konstruere en segmentering klassifikator.
billedforbedring
en kontrast lokal adaptiv histogramudligning (CLAHE) blev anvendt på gråtonebilledet til billedforbedring . I CLAHE er valget af klipgrænse, der specificerer den ønskede form af billedets histogram, altafgørende, da det kritisk påvirker kvaliteten af det forbedrede billede. Den optimale værdi af klipgrænsen blev valgt empirisk ved hjælp af metoden defineret af Joseph et al. . En optimal clip grænseværdi på 2.0 blev bestemt til at være passende til at tilvejebringe tilstrækkelig billedforbedring, samtidig med at de mørke funktioner for de anvendte datasæt bevares. Konvertering til gråtoner blev opnået ved hjælp af en gråtoneteknik implementeret ved hjælp af EKV. 1 som defineret i .
hvor R = rød, G = grøn og B = blå farvebidrag til det nye billede.
anvendelse af CLAHE til billedforbedring resulterede i mærkbare ændringer i billederne ved at justere billedintensiteter, hvor mørkningen af kernen såvel som cytoplasmens grænser blev let identificerbar ved hjælp af en klipgrænse på 2,0.
Scenesegmentering
for at opnå scenesegmentering blev der udviklet en klassifikator for billedniveau ved hjælp af værktøjssæt, der kan trænes. Størstedelen af celler observeret i en pap-smear er ikke overraskende cervikale epitelceller . Derudover er varierende antal leukocytter, erythrocytter og bakterier normalt tydelige, mens der undertiden observeres et lille antal andre forurenende celler og mikroorganismer. Imidlertid, pap-smear indeholder fire hovedtyper af pladeformede cervikale celler-overfladisk, mellemliggende, parabasal og basal—hvoraf overfladiske og mellemliggende celler repræsenterer det overvældende flertal i en konventionel udstrygning; derfor bruges disse to typer normalt til en konventionel pap-smear-analyse . En trainable segmentering blev brugt til at identificere og segmentere de forskellige objekter på diaset. På dette stadium blev en klassifikator uddannet på cellekerner, cytoplasma, baggrunds-og affaldsidentifikation ved hjælp af en dygtig cytopatolog ved hjælp af Trainable segmentering toolkit . Dette blev opnået ved at tegne linjer/udvælgelse gennem interesseområderne og tildele dem til en bestemt klasse. Billedpunkterne under linjerne/udvælgelsen blev taget for at være repræsentant for kernerne, cytoplasma, baggrund og affald.
konturerne tegnet inden for hver klasse blev brugt til at generere en funktionsvektor, \(\mathop F\limits^{ \to}\), som blev afledt af antallet af billedpunkter, der tilhører hver kontur. Funktionsvektoren fra hvert billede (200 fra datasæt 1 og 200 fra datasæt 2) blev defineret af Ek. 2.
hvor Ni, Ci, Bi og Di er antallet af billedpunkter fra kernen, cytoplasma, baggrund og snavs af billedet \(i\) som vist i Fig. 2.
hvert billede, der er ekstraheret fra billedet, repræsenterer ikke kun dens intensitet, men også et sæt billedfunktioner, der indeholder en masse information, herunder tekstur, grænser og farve inden for et billedområde på 0,201 liter 2. At vælge en passende funktionsvektor til træning af klassifikatoren var en stor udfordring og en ny opgave i den foreslåede tilgang. Klassificeringsenheden blev trænet ved hjælp af i alt 226 træningsfunktioner. I) støjreduktion: de bilaterale filtre i værktøjssættet blev brugt til at træne klassifikatoren i støjfjernelse. Disse er rapporteret at være fremragende filtre til fjernelse af støj, samtidig med at kanterne bevares, (ii) kantdetektion: et Sobel-filter, hessisk Matrice og Gabor-filter blev brugt til at træne klassifikatoren i grænsedetektion i et billede og (iii) teksturfiltrering: Middel -, varians -, median -, maksimum -, minimum-og entropifiltrene blev brugt til teksturfiltrering.
fjernelse af affald
hovedårsagen til de nuværende begrænsninger i mange af de eksisterende automatiserede pap-smear-analysesystemer er, at de kæmper for at overvinde kompleksiteten af pap-smear-strukturer ved at forsøge at analysere diaset som helhed, som ofte indeholder flere celler og snavs. Dette har potentialet til at forårsage algoritmens fiasko og kræver højere beregningskraft . Prøver er dækket af artefakter—såsom blodlegemer, overlappende og foldede celler og bakterier—der hæmmer segmenteringsprocesserne og genererer et stort antal mistænkelige genstande. Det har vist sig, at klassifikatorer designet til at skelne mellem normale celler og prækræftceller normalt producerer uforudsigelige resultater, når der findes artefakter i pap-smear . I dette værktøj er en teknik til at identificere livmoderhalsceller ved hjælp af et trefaset sekventielt eliminationsskema (afbildet i Fig. 3) anvendes.
det foreslåede trefasede eliminationsskema fjerner sekventielt affald fra pap-smear, hvis det skønnes at være usandsynligt at være en livmoderhalscelle. Denne tilgang er gavnlig, da den gør det muligt at træffe en lavere dimensionel beslutning på hvert trin.
Størrelsesanalyse
Størrelsesanalyse er et sæt procedurer til bestemmelse af en række størrelsesmålinger af partikler . Området er en af de mest basale funktioner, der anvendes inden for automatiseret cytologi til at adskille celler fra affald. Pap-smear-analysen er et velundersøgt felt med meget forudgående viden om celleegenskaber . En af de vigtigste ændringer med vurdering af kerneområdet er imidlertid, at kræftceller gennemgår en betydelig stigning i nuklear størrelse . Derfor er det meget sværere at bestemme en øvre størrelsestærskel, der ikke systematisk udelukker diagnostiske celler, men har fordelen ved at reducere søgepladsen. Metoden præsenteret i dette papir er baseret på en lavere størrelse og øvre størrelse tærskel for de cervikale celler. Pseudokoden for fremgangsmåden er vist i Ek. 3.
hvor \(Area_{maks} = 85.267\,{\upmu \tekst{m}}^{2}\) og \(Area_{min} = 625\,{\upmu \tekst{m}}^{2}\) afledt af tabel 2.
objekterne i baggrunden betragtes som affald og kasseres således fra billedet. Partikler, der falder mellem \(Area_{min}\) og \(Area_{maks}\) analyseres yderligere i de næste faser af struktur-og formanalyse.
Formanalyse
formen på objekterne i en pap-udstrygning er en nøglefunktion i differentieringen mellem celler og affald . Der er en række metoder til detektion af formbeskrivelse, og disse inkluderer regionsbaserede og konturbaserede tilgange . Regionsbaserede metoder er mindre følsomme over for støj, men mere beregningsintensive, mens konturbaserede metoder er relativt effektive til at beregne, men mere følsomme over for støj . I dette papir er der anvendt en regionbaseret metode (perimeter2/område (P2A)). P2A-deskriptoren blev valgt på den fortjeneste, at den beskriver ligheden mellem et objekt og en cirkel. Dette gør det velegnet som en cellekernebeskrivelse, da kerner generelt er cirkulære i deres udseende. P2A kaldes også formkompaktitet og er defineret af EKV. 4.
hvor c er værdien af formkompaktitet, A er området og p er omkredsen af kernen. Affald blev antaget at være objekter med en P2A-værdi større end 0,97 eller mindre end 0,15 i henhold til træningsfunktionerne (afbildet i tabel 2).
Teksturanalyse
tekstur er et meget vigtigt karakteristisk træk, der kan skelne mellem kerner og affald. Billedtekstur er et sæt metrics designet til at kvantificere den opfattede tekstur af et billede . Inden for en pap-udstrygning er fordelingen af den gennemsnitlige nukleare pletintensitet meget snævrere end variationen i pletintensiteten blandt affaldsgenstande . Denne kendsgerning blev brugt som grundlag for at fjerne snavs baseret på deres billedintensiteter og farveinformation ved hjælp af Nulmomenter . Moderne øjeblikke bruges til en række applikationer til mønstergenkendelse og er kendt for at være robuste med hensyn til støj og have en god genopbygningskraft. I dette arbejde, mm som præsenteret af Malm et al. af rækkefølge n med gentagelse i af funktion \(f\left ({r, \ theta }\ right)\), i polære koordinater inde i en disk centreret i firkantet billede\(i \left( {h,y}\ right)\) af størrelse \(m\ gange m\) givet af Ek. 5 blev brugt.
\(v_ {nl} ^ { * }\left ({r, \Theta}\right)\) betegner det komplekse konjugat af det nuværende polynom\(V_ {nl } \Left ({r,\ Theta} \right)\). For at producere et teksturmål beregnes størrelsen fra \(a_{nl}\) centreret ved hvert punkt i teksturbilledet i gennemsnit .
funktionsekstraktion
succesen med en klassificeringsalgoritme afhænger i høj grad af rigtigheden af de funktioner, der udvindes fra billedet. Cellerne i pap-smears i det anvendte datasæt er opdelt i syv klasser baseret på egenskaber som størrelse, areal, form og lysstyrke af kernen og cytoplasma. Funktionerne ekstraheret fra billederne inkluderede morfologifunktioner, der tidligere blev brugt af andre . I dette papir blev der også ekstraheret tre geometriske træk (soliditet, kompaktitet og ekscentricitet) og seks tekstfunktioner (gennemsnit, standardafvigelse, varians, glathed, energi og entropi) fra kernen, hvilket resulterede i 29 funktioner i alt som vist i tabel 3.
Feature selection
Feature selection er processen med at vælge undergrupper af de ekstraherede funktioner, der giver de bedste klassificeringsresultater. Blandt de funktioner, der udvindes, kan nogle indeholde støj, mens den valgte klassifikator muligvis ikke bruger andre. Derfor skal et optimalt sæt funktioner bestemmes, muligvis ved at prøve alle kombinationer. Men når der er mange funktioner, eksploderer de mulige kombinationer i antal, og dette øger algoritmens beregningskompleksitet. Feature udvælgelse algoritmer er bredt klassificeret i filteret, indpakning og indlejrede metoder .
metoden, der anvendes af værktøjet, kombinerer simuleret udglødning med en indpakningsmetode. Denne tilgang er blevet foreslået i men, i dette papir, udførelsen af funktionsvalget evalueres ved hjælp af en tilfældig skovalgoritme med dobbelt strategi . Simuleret udglødning er en probabilistisk teknik til tilnærmelse af det globale optimale for en given funktion. Fremgangsmåden er velegnet til at sikre, at det optimale sæt funktioner vælges. Søgningen efter det optimale sæt styres af en fitnessværdi . Når simuleret udglødning er færdig, sammenlignes alle de forskellige undergrupper af funktioner, og den stærkeste (det vil sige den, der udfører bedst) vælges. Fitnessværdisøgningen blev opnået med en indpakning, hvor k-fold krydsvalidering blev brugt til at beregne fejlen på klassificeringsalgoritmen. Forskellige kombinationer fra de ekstraherede funktioner fremstilles, evalueres og sammenlignes med andre kombinationer. En forudsigelig model bruges derefter til at evaluere en kombination af funktioner og tildele en score baseret på modelnøjagtighed. Den fitnessfejl, der gives af indpakningen, bruges som fitnessfejl af den simulerede udglødningsalgoritme. En uklar C-middelalgoritme blev pakket ind i en sort boks, hvorfra der blev opnået en estimeret fejl for de forskellige funktionskombinationer som vist i Fig. 4.