Fig. 3
driefasige sequentiële eliminatiebenadering voor afvalafstoting
het voorgestelde driefasige eliminatieschema verwijdert achtereenvolgens puin uit het uitstrijkje indien dit onwaarschijnlijk wordt geacht een baarmoederhals cel. Deze aanpak is gunstig omdat het in elke fase een lager-dimensionale beslissing mogelijk maakt.
Grootteanalyse
Grootteanalyse is een reeks procedures voor het bepalen van een reeks groottemetingen van deeltjes . Het gebied is één van de basiseigenschappen die op het gebied van geautomatiseerde cytologie worden gebruikt om cellen van puin te scheiden. De pap-smear analyse is een goed bestudeerd veld met veel voorkennis met betrekking tot Celeigenschappen . Een van de belangrijkste veranderingen bij de beoordeling van het kerngebied is echter dat kankercellen een aanzienlijke toename van de nucleaire omvang ondergaan . Daarom is het bepalen van een bovenste groottedrempel die diagnostische cellen niet systematisch uitsluit veel moeilijker, maar heeft het voordeel dat de zoekruimte wordt verminderd. De methode die in dit document wordt gepresenteerd is gebaseerd op een lagere grootte en bovenste grootte drempel van de cervicale cellen. De pseudo-code voor de aanpak wordt weergegeven in Eq. 3.
$$If\;Area_{min} \le Area_{roi} \le Area_{max} \;dan\;\left\langle {voorgrond} \right\rangle \;else\;\left\langle {Background} \right\rangle ,$$
(3)
waar \(Area_{max} = 85,267\,{\upmu \text{m}}^{2}\) en \(Area_{min} = 625\,{\upmu \text{m}}^{2}\) afgeleid uit Tabel 2.
de objecten op de achtergrond worden beschouwd als puin en dus verwijderd van de afbeelding. Deeltjes die tussen \(Area_{min}\) en \(Area_{max}\) vallen, worden verder geanalyseerd tijdens de volgende stadia van textuur-en vormanalyse.
Shape analysis
de vorm van de objecten in een uitstrijkje is een belangrijk kenmerk in de differentiatie tussen cellen en puin . Er zijn een aantal methoden voor de detectie van vormbeschrijvingen en deze omvatten regio-gebaseerde en contour-gebaseerde benaderingen . Regio-gebaseerde methoden zijn minder gevoelig voor lawaai, maar meer rekenintensief, terwijl contour-gebaseerde methoden relatief efficiënt zijn om te berekenen, maar gevoeliger voor lawaai . In dit artikel is een regio-gebaseerde methode (perimeter2/gebied (P2A)) gebruikt . De p2a-descriptor werd gekozen op grond van de verdienste dat het de gelijkenis van een object met een cirkel beschrijft. Dit maakt het goed geschikt als een celkerndescriptor aangezien kernen over het algemeen cirkelvormig zijn in hun verschijning. De p2a wordt ook aangeduid als vorm compactheid en wordt gedefinieerd door Eq. 4.
$$c = \frac {{{p^{2} }} {A},$$
(4)
waarbij c de waarde is van vormcompactheid, A het gebied is en p de omtrek van de kern. Puin werd verondersteld objecten te zijn met een P2A-waarde groter dan 0,97 of kleiner dan 0,15 volgens de trainingskenmerken (afgebeeld in Tabel 2).
Textuuranalyse
textuur is een zeer belangrijk kenmerk dat een onderscheid kan maken tussen kernen en puin. Beeldtextuur is een reeks metrics ontworpen om de waargenomen textuur van een beeld te kwantificeren . Binnen een uitstrijkje, is de verdeling van de gemiddelde nucleaire vlek intensiteit veel smaller dan de vlek intensiteit variatie tussen puin objecten . Dit feit werd gebruikt als basis om puin te verwijderen op basis van hun beeldintensiteit en kleurinformatie met behulp van Zernike moments (ZM) . Zernike moments worden gebruikt voor verschillende patroonherkenningstoepassingen en staan erom bekend dat ze robuust zijn met betrekking tot ruis en een goede reconstructie vermogen hebben. In dit werk, de ZM zoals gepresenteerd door Malm et al. van orde n met Herhaling I van functie \(f\left ({r, \ theta } \ right)\), in poolcoördinaten binnen een schijf gecentreerd in vierkant beeld \(I\left( {x,y} \right)\) van grootte \(M \keer m\) gegeven door Eq. 5 werd gebruikt.
$$A_{nl} = \frac{n + 1}{\pi }\mathop \sum \limits_{x} \mathop \sum \limits_{y} v_{nl}^{*} \left( {r,\theta } \right)I\left( {x,y} \right),$$
(5)
\(v_{nl }^{*} \left( {r,\theta } \right)\) geeft de complex geconjugeerde van het Zernike polynoom \(v_{nl} \left( {r,\theta } \right)\). Om een textuurmaat te produceren, worden magnitudes van \(a_{nl}\) gecentreerd op elke pixel in de textuurafbeelding gemiddeld .
het succes van een classificatiealgoritme hangt sterk af van de juistheid van de features uit de afbeelding. De cellen in de uitstrijkjes in de gebruikte dataset zijn verdeeld in zeven klassen op basis van kenmerken zoals grootte, Oppervlakte, vorm en helderheid van de kern en cytoplasma. De functies uit de beelden opgenomen morfologie functies eerder gebruikt door anderen . In dit artikel werden ook drie geometrische kenmerken (stevigheid, compactheid en excentriciteit) en zes tekstuele kenmerken (gemiddelde, standaardafwijking, variantie, gladheid, energie en entropie) geëxtraheerd uit de kern, resulterend in 29 kenmerken in totaal zoals weergegeven in Tabel 3.
Tabel 3 geëxtraheerde functies uit de pap-smear images
Feature selection
Feature selection is het proces van het selecteren van subsets van de geëxtraheerde functies die de beste classificatieresultaten geven. Onder deze functies geëxtraheerd, sommige kunnen ruis bevatten, terwijl de gekozen classifier kan niet gebruik maken van anderen. Daarom moet een optimale set van functies worden bepaald, eventueel door alle combinaties te proberen. Echter, wanneer er veel functies, de mogelijke combinaties exploderen in aantal en dit verhoogt de computationele complexiteit van het algoritme. Functie selectie algoritmen zijn in grote lijnen ingedeeld in de filter, wrapper en embedded methoden .
De methode die door het gereedschap wordt gebruikt combineert gesimuleerde gloeiing met een wikkelbenadering. Deze aanpak is voorgesteld in, maar, in dit document, de prestaties van de functie selectie wordt geëvalueerd met behulp van een dubbele-strategie random forest algoritme . Het gesimuleerde ontharden is een probabilistische techniek voor het benaderen van het globale optimum van een bepaalde functie. De aanpak is zeer geschikt om ervoor te zorgen dat de optimale set van functies wordt geselecteerd. De zoektocht naar de optimale set wordt geleid door een fitnesswaarde . Wanneer het gesimuleerde ontharden wordt gebeëindigd, worden alle verschillende subsets van eigenschappen vergeleken en geschiktste (dat wil zeggen, degene die het beste presteert) geselecteerd. De fitness value search werd verkregen met een wrapper waarbij k-voudige kruisvalidatie werd gebruikt om de fout op het classificatiealgoritme te berekenen. Verschillende combinaties van de geëxtraheerde functies worden voorbereid, geëvalueerd en vergeleken met andere combinaties. Een voorspellend model wordt vervolgens gebruikt om een combinatie van functies te evalueren en een score toe te wijzen op basis van modelnauwkeurigheid. De door de wikkel gegeven fitnessfout wordt door het gesimuleerde gloeialgoritme als fitnessfout gebruikt. Een fuzzy C-means algoritme werd verpakt in een black box, waaruit een geschatte fout werd verkregen voor de verschillende feature combinaties zoals weergegeven in Fig. 4.
Fig. 4
de fuzzy C-means is verpakt in een zwart kader waaruit een geschatte fout wordt verkregen
Fuzzy C-means staat toe dat gegevenspunten in de dataset behoren tot alle van de clusters, met lidmaatschappen in het interval (0-1) zoals weergegeven in EQ. 6.
$$M_{ik} = \frac{1} {{\mathop \ sum \nolimits_{j = 1}^{c} \ left ({\frac{{d_{ik} }}{{d_{jk} }}} \ right)^{{2/\left ({q – 1} \ right ))}} }} ,$$
(6)
waarbij \(M_{ik}\) het lidmaatschap is voor gegevenspunt k naar clustercentrum i, \(d_{jk}\) de afstand is van clustercentrum j naar gegevenspunt k en q € een exponent is die bepaalt hoe sterk de lidmaatschappen moeten zijn. Het fuzzy C-means algoritme werd geà mplementeerd met behulp van de fuzzy toolbox in Matlab.
de defuzzificatie
een fuzzy C-means algoritme vertelt ons niet welke informatie de clusters bevatten en hoe die informatie gebruikt moet worden voor classificatie. Het bepaalt echter hoe datapunten het lidmaatschap van de verschillende clusters krijgen toegewezen en dit fuzzy lidmaatschap wordt gebruikt om de klasse van een datapunt te voorspellen . Dit wordt overwonnen door defuzzificatie. Er bestaan een aantal defuzzificatiemethoden . Echter, in deze tool, elk cluster heeft een fuzzy lidmaatschap (0-1) van alle klassen in de afbeelding. Trainingsgegevens worden toegewezen aan het dichtstbijzijnde cluster. Het percentage trainingsgegevens van elke klasse die tot cluster A behoort, geeft het clusterlidmaatschap aan, cluster A = tot de verschillende klassen, waarbij i de insluiting is in cluster A en j in het andere cluster. De intensiteitsmaat wordt toegevoegd aan de lidmaatschapsfunctie voor elk cluster met behulp van een fuzzy clustering defuzzification algoritme. Een populaire aanpak voor defuzzificatie van fuzzy partitie is de toepassing van het maximale lidmaatschap graad principe waar gegevenspunt k is toegewezen aan klasse m als, en alleen als, zijn lidmaatschap graad \(M_{ik}\) aan cluster i, is de grootste. Chuang et al. voorgesteld aanpassen van de lidmaatschapsstatus van elk gegevenspunt met behulp van de lidmaatschapsstatus van zijn buren.
in de voorgestelde aanpak wordt een defuzzificatiemethode op basis van Bayesiaanse waarschijnlijkheid gebruikt om een probabilistisch model van de ledenfunctie voor elk gegevenspunt te genereren en het model toe te passen op de afbeelding om de classificatiegegevens te produceren. Het probabilistische model wordt als volgt berekend:
converteer de mogelijke verdelingen in de partitiematrix (clusters) naar kansverdelingen.
construeer een probabilistisch model van de datadistributies zoals in .
pas het model toe om de classificatiegegevens voor elk gegevenspunt te produceren met behulp van Eq. 7.
$${\text{p}}\left( {A_{i} |B_{j} } \right) = \frac{{p\left( {B_{j} |a_{i} } \right)*P\left( {A_{i} } \right)}}{{b_{j} }} ,$$
(7)
waar \(P\Left( {a_{I} } \right),i = 0 \ldots .c\) is de voorafgaande waarschijnlijkheid van \(A_{i}\) die kan worden berekend met behulp van de methode waarbij de voorafgaande waarschijnlijkheid altijd evenredig is met de massa van elke klasse.
het aantal te gebruiken clusters werd bepaald om ervoor te zorgen dat het gebouwde model de gegevens op de best mogelijke manier kan beschrijven. Als te veel clusters worden gekozen, dan is er een risico van overfitting van het lawaai in de gegevens. Als er te weinig clusters worden gekozen, dan kan een slechte classifier het resultaat zijn. Daarom werd een analyse van het aantal clusters uitgevoerd tegen de fout van de kruisvalidatietest. Een optimaal aantal van 25 clusters werd bereikt en overtraining vond plaats boven dit aantal clusters. Een defuzzificatie-exponent van 1.0930 werd verkregen met 25 clusters, tienvoudige cross-validatie en 60 herhalingen en werd gebruikt om de fitness fout voor functie selectie te berekenen waar een totaal van 18 functies van de 29 functies werden geselecteerd voor de bouw van de classifier. De geselecteerde kenmerken waren: nucleus gebied; nucleus grijs niveau; nucleus Kortste diameter; nucleus langste; nucleus perimeter; maxima in nucleus; minima in nucleus; cytoplasm gebied; cytoplasm grijs niveau; cytoplasm perimeter; nucleus tot cytoplasm ratio; nucleus excentriciteit, nucleus standaarddeviatie, nucleus grijs niveau variantie; nucleus grijs niveau entropie; nucleus relatieve positie; nucleus grijs niveau gemiddelde en nucleus grijze waarden energie.
Classificatieevaluatie
in dit artikel werd het hiërarchische model van de werkzaamheid van diagnostische beeldvormingssystemen, voorgesteld door Fryback en Thornbury, aangenomen als leidend principe voor de evaluatie van het instrument, zoals weergegeven in Tabel 4.
Table 4 Tool evaluation criteria
sensitiviteit meet het aandeel van de werkelijke positieven die correct als zodanig worden geïdentificeerd, terwijl specificiteit het aandeel van de werkelijke negatieven die correct als zodanig worden geïdentificeerd meet. Gevoeligheid en specificiteit worden beschreven door Eq. 8.
$$gevoeligheid \;\left ({TPR} \ right) = \frac{TP}{TP + FN},\; specificiteit\; \ left ({TNR} \ right) = \ frac{TN}{TN + FP},$$
(8)
waarbij TP = True positieven, FN = False negatieven, TN = True negatieven en FP = False positieven.
GUI ontwerp en integratie
de hierboven beschreven beeldverwerkingsmethoden zijn geïmplementeerd in Matlab en worden uitgevoerd via een Java graphical user interface (GUI) getoond in Fig. 5. De tool heeft een paneel waar een pap-uitstrijkje afbeelding wordt geladen en de cytotechnicus selecteert een geschikte methode voor scène segmentatie (gebaseerd op TWS classifier), puin verwijderen (gebaseerd op de drie sequentiële eliminatie aanpak) en grens detectie (indien nodig, met behulp van Canny rand detectie methode), waarna functies worden geëxtraheerd met behulp van de extract features knop.
Fig. 5
PAT grafische gebruikersinterface
het gereedschap scant door het uitstrijkje om alle objecten te analyseren die overbleven na het verwijderen van puin. De 18 functies beschreven in functie selectie worden geëxtraheerd uit elk object en gebruikt om elke cel te classificeren met behulp van de fuzzy C-means algoritme beschreven in de classificatiemethode. Willekeurig worden geëxtraheerde kenmerken van één oppervlakkige cel en één tussencel weergegeven in het paneel resultaten van de beeldanalyse. Zodra de functies zijn geëxtraheerd, drukt de cytotechnician (gebruiker) op de classificeerknop en het hulpmiddel zendt een diagnose uit (positief aan maligniteit of negatief aan maligniteit) en classificeert de diagnose aan één van de 7 klassen/stadia van baarmoederhalskanker volgens de trainingsdataset.