Optisk karaktergjenkjennelse

Optisk tegngjenkjenning ( OCR ), generelt kjent som tegngjenkjenning og ofte uttrykt med akronymet OCR ( Optical Character Recognition ), er en prosess som tar sikte på å digitalisere tekster, som automatisk identifiserer dem fra et bilde.symboler eller tegn som tilhører et bestemt alfabet , for senere å lagre dem i form av data. Så vi kan samhandle med disse gjennom et tekstredigeringsprogram eller lignende.

De siste årene har digitalisering av informasjon (tekster, bilder, lyd osv.) blitt et interessepunkt for samfunnet. Når det gjelder tekster, eksisterer store mengder skriftlig, typografisk eller håndskrevet informasjon og genereres kontinuerlig i alle typer medier. I denne sammenheng innebærer det å kunne automatisere introduksjonen av tegn og unngå tastaturinndata betydelige besparelser i menneskelige ressurser og en økning i produktivitet, samtidig som kvaliteten på mange tjenester opprettholdes eller til og med forbedres.

Problemer med ROC

Den grunnleggende prosessen som utføres i ROC er å konvertere teksten som vises i et bilde til en tekstfil som kan redigeres og brukes som sådan av et hvilket som helst annet program eller program som trenger det.

Med utgangspunkt i et perfekt bilde, det vil si et bilde med bare to nivåer av grått, vil gjenkjennelsen av disse karakterene i utgangspunktet utføres ved å sammenligne dem med mønstre eller maler som inneholder alle mulige tegn. Nå er ikke de virkelige bildene perfekte, derfor møter ROC flere problemer:

Grunnleggende skjema for en ROC-algoritme

Alle ROC- algoritmer har som formål å kunne skille en tekst fra et hvilket som helst bilde. For å gjøre det er de basert på fire stadier:

  1. Binarisering eller karakterisering.
  2. Fragmentering eller segmentering av bildet.
  3. komponent tynning.
  4. Sammenligning med mønstre.

Binarisering

De fleste ROC-algoritmer starter fra et binært bilde (to farger). Det er derfor praktisk å konvertere et gråtonebilde, eller et fargebilde, til et svart-hvitt-bilde, på en slik måte at de vesentlige egenskapene til bildet bevares. En måte å gjøre dette på er gjennom histogrammet til bildet, hvor antall piksler for hvert grått nivå som vises i bildet vises. For å binarisere det må vi velge en passende terskel, hvorfra alle pikslene som ikke overskrider den blir svarte og resten hvite.

Gjennom denne prosessen får vi et svart-hvitt-bilde der konturene til tegnene og symbolene i bildet er tydelig markert. Herfra kan vi isolere delene av bildet som inneholder tekst (pluss overganger mellom svart og hvitt).

Bildefragmentering eller segmentering

Dette er den dyreste og mest nødvendige prosessen for påfølgende karaktergjenkjenning. Segmenteringen av et bilde innebærer deteksjon ved hjelp av "deterministisk merking" eller stokastiske prosedyrer av konturene eller områdene av bildet, basert på intensitetsinformasjon eller romlig informasjon.

Den tillater dekomponering av en tekst i forskjellige logiske enheter, som må være ufravikelige nok til å være uavhengige av forfatteren, og betydelige nok til å bli gjenkjent.

Det finnes ingen generisk metode for å utføre denne bildesegmenteringen som er effektiv nok for tekstanalyse. Selv om de mest brukte teknikkene er variasjoner av metodene basert på lineære projeksjoner .

En av de mest klassiske og enkle teknikkene for grånivåbilder består i å bestemme modusene eller grupperingene ( klynger ) fra histogrammet , på en slik måte at de tillater en klassifisering eller terskelverdi av pikslene i homogene områder.

Komponent tynning

Når de relaterte komponentene i bildet er isolert, må en tynningsprosess brukes på hver av dem. Denne prosedyren består i å suksessivt slette punktene til konturene til hver komponent slik at dens typologi bevares.

Elimineringen av punktene må følge et skjema med påfølgende skanninger slik at bildet fortsetter å ha samme proporsjoner som originalen og dermed sikre at det ikke blir deformert.

Du må gjøre et parallelt sveip, det vil si peke på de slettbare pikslene for å fjerne dem alle på en gang. Denne prosessen utføres for å gjøre klassifisering og gjenkjennelse mulig, og forenkle formen på komponentene.

Sammenligning med standarder

På dette stadiet sammenlignes de tidligere oppnådde tegnene med teoretiske (mønstre) lagret i en database. Den riktige funksjonen til ROC er i stor grad basert på en god definisjon av dette stadiet.

Det finnes ulike metoder for å gjennomføre sammenligningen. En av dem er projeksjonsmetoden, der vertikale og horisontale projeksjoner av tegnet som skal gjenkjennes oppnås, og de sammenlignes med alfabetet av mulige tegn til maksimal match er funnet.

Det finnes andre metoder, for eksempel:

Applikasjoner

Siden opptredenen av ROC-algoritmer har det vært mange tjenester som har introdusert disse prosessene for å øke ytelsen og andre som er fullstendig basert på disse teknologiene. Nedenfor er noen av de mest bemerkelsesverdige programmene som bruker ROC.

Håndskrevet tekstgjenkjenning

Vanskelighetene vi kan finne når vi gjenkjenner en maskinskrevet tekst, kan ikke sammenlignes med de som oppstår når vi ønsker å gjenkjenne en håndskrevet tekst. Vi skriver ikke alle ensartet, og vi skriver ikke alle på samme måte. Gjenkjennelsen av denne typen tekster fortsetter å være en utfordring. For å løse denne typen problemer er det utviklet spesifikke teknikker og applikasjoner, som kalles Intelligent Character Recognition eller ICR ( Intelligent Character Recognition).

Selv om teksten i utgangspunktet er bygd opp av individuelle tegn, oppnår de fleste ROC-algoritmer ikke gode resultater, siden segmentering av kontinuerlig tekst er en kompleks prosedyre.

I tilfelle av anerkjennelse av håndskrevet skrift på tidspunktet for korrigering av eksamener, er det mulighet for å legge til en liste over leksikon (navn og etternavn) for å nærme seg 100 % suksess. Gjennom ICR-svarboksene kan ord gjenkjennes, som landnavn, regionnavn, varemerker, kort sagt alt som kan integreres i en ordliste (leksikalsk), som kan økes etter behov.

I den virkelige verden kan du noen ganger forstå en setning når du har lest den ferdig. Automatisering av denne prosessen innebærer en operasjon av morfologiske, leksikalske og syntaktiske nivåer som oppnås gjennom kontinuerlig talegjenkjenning . For å utføre denne metodikken brukes robuste algoritmer som bruker en tidligere segmentering, siden den oppnås automatisk med dekoding.

For å lette gjenkjennelsen krever noen ganger ICR-teknologien at dokumentet har bokser der de håndskrevne tegnene legges inn, ett tegn per boks er obligatorisk. Det brukes vanligvis til skjemaer som vi må fylle ut for hånd og vi må sette inn store bokstaver. [ 1 ]

Nummerplategjenkjenning

En av applikasjonene er radarer. Disse skal kunne lokalisere et bilskilt med variable lysforhold, perspektiv og miljø.

I segmenteringsstadiet søkes det etter skilt-lignende teksturer og det rektangulære området som utgjør skiltet isoleres.

Til slutt påføres en multippel klassifiseringsprosess for settet med piksler som tilhører bilskiltet, og gir en rekke tegn som må justeres til en kjent modell: formatet til et bilskilt. Hvis det oppstår en feil, blir den rettet.


Indeksering med databaser

Med den store økningen i publisert informasjon som har funnet sted de siste årene, brukes stadig flere metoder for å organisere alt dette materialet som er lagret i databaser. Et av disse innholdene er bilder. En av de vanligste måtene å søke etter bilder på er fra metadata som legges inn manuelt av brukere. For tiden har det dukket opp søkemotorer som gir mulighet for å søke etter bilder ved hjelp av teksten som vises i dem, som DIRS ( Document Image Retrieval System ) søkemotor som gjennom en ROC-algoritme trekker ut teksten som vises i bildet og bruker det som metadata som kan brukes til søk. Denne teknologien gir en mulighet i søket etter bilder og viser at ROC fortsatt har mye å tilby.

Gjenkjenning av strukturerte data med Zonal ROC

Den brukes til å massivt digitalisere store mengder strukturerte eller semistrukturerte dokumenter (fakturaer, lønn, følgesedler, poliser, bankkvitteringer, etc.), automatisk katalogisere dokumentene med metadataene som er innhentet og arkivere dem i digitalt format på en indeksert måte for å lette deres påfølgende søk. . Det har den ulempen at det er nødvendig å designe malene på forhånd, men med en god konfigurasjon sparer det mye tid i digitaliseringsprosessen.

Se også

Referanser

  1. OCR, ICR og OMR. Hva er de og hva er de for?