Kuinka OCR toimii? Selitetty yksinkertaisella ja ymmärrettävällä tavalla
Tässä artikkelissa selitetään, miten OCR toimii. OCR tarkoittaa "Optical Character Recognition", ja sitä kutsutaan saksaksi yksinkertaisesti tekstintunnistukseksi. Tämä tarkoittaa, että tietokone tunnistaa skannatun kuvan tekstin tekstintunnistuksen avulla ja muuntaa sen sitten yksinkertaiseksi tekstiasiakirjaksi.
Näin OCR toimii
Kuvittele, että sait paperiesityksen kollegaltasi. Haluat nyt muokata näitä tietokoneella, koska et pidä yksittäisistä kohdista. Joten skannaa se ja mene OCR-ohjelmaan. Nyt tapahtuu seuraava:
- Ohjelmisto tekee ensin ns. Asetteluanalyysin. Tätä varten hän tarkastelee sivun asettelua ja erottaa kuvat tekstistä. Hän huomauttaa myös heidän asemansa sivulla. Sitten kappaleiden lukumäärä lasketaan ja yksittäiset elementit, kuten sivunumerot, tallennetaan.
- Nyt tulee kova osa. Ohjelmisto tarkastelee yksittäisiä tekstilohkoja ja jakaa ne lauseisiin. Lauseet jaetaan sitten yksittäisiksi sanoiksi ja sanat kirjaimiksi.
- OCR-ohjelmisto sisältää kirjaimia ja merkkejä. Ohjelma vertaa nyt skannattuja kirjeitä näihin kuvioihin. Jos ne ovat 99% samankaltaisia, algoritmi päättää, että sen on todennäköisesti oltava kyseinen kirjain. Se on erittäin tarkka, koska se voi verrata monia kuvioita lyhyessä ajassa. Tällä tavalla hän erottaa onnistuneesti "8" ja "B".
- Joten kirjaimet ja merkit tunnistetaan vähitellen. Sitten ne yhdistetään taas sanoiksi ja laitetaan takaisin paikoilleen lauseessa. Heti kun ohjelmisto on valmis, koko asia tallennetaan normaaliin asiakirjaan, jota voit sitten muokata. Valmis!
Haluatko testata ohjelmistotietosi? Osallistu isoon ohjelmistokilpailuun!