Anonim

Viena no lietām, kas mani bieži ir satracinājusi, ir nespēja viegli nokopēt tekstu no attēliem un noteiktiem PDF failiem (piemēram, tiem, kas varētu būt izveidoti no skenētiem dokumentiem). Par laimi laika gaitā ir izstrādāti programmatūras risinājumi, lai risinātu šo problēmu, ļaujot ievērojami ietaupīt laiku, kas citādi būtu iztērēts, manuāli kopējot un atkārtoti ierakstot tekstu. Šodienas padomā es runāšu par bezmaksas programmatūras rīku Capture2Text, kas izmanto optiskās rakstzīmes atpazīšanas (OCR) algoritmu, kas ļaus uztvert tekstu no attēlu un PDF failiem.

Instalēšana un iestatīšana

Lai sāktu, dodieties uz projekta SourceForge lapu un lejupielādējiet jaunāko Capture2Text versiju. Programmatūra tiek piegādāta kā ZIP arhīvs, un tajā laikā tajā nav iekļauts instalētājs. Kad lejupielādēts, izvelciet arhīva pakotni un palaidiet Capture2Text.exe failu. Tiks palaista programmatūra un ievietota ikona sistēmas teknē:

Pirmkārt, tas, ko jūs vēlaties darīt, ir iestatīt programmatūras preferences, īpaši tos karstos taustiņus (vai saīsnes), ko izmantot uztveršanas sākšanai un apturēšanai:

Manā gadījumā es izvēlējos izmantot taustiņus “Windows + q”, lai sāktu tveršanu, un “Enter”, lai to apturētu. Varat pielāgot šīs iespējas vispiemērotākajam. Ņemiet vērā, ka taustiņu “Windows + s” jau bieži izmanto ekrāna tveršanai (piemēram, tādās programmās kā Microsoft One Note).

Nākamajā cilnē OCR opcijas var konfigurēt, iekļaujot ievades valodu (pašlaik tiek atbalstītas septiņas valodas) un to, vai OCR iepriekšēju apstrādi izmantot precizitātes uzlabošanai (ļoti ieteicams). Visbeidzot, cilnē Output starp citām iespējām var izvēlēties, vai vienkārši saglabāt uzņemto tekstu starpliktuvē vai arī atvērt atsevišķu uznirstošo logu.

Programmatūras lietošana

Kad programmatūra ir instalēta un konfigurēta, varat sākt to lietot, izmantojot karsto taustiņu startēšanas sākšanu. Izmantojot peli, atlasiet attēla apgabalu, kurā ir teksts, kuru vēlaties tvert. Lai pārtrauktu tveršanu, vienkārši nospiediet karsto taustiņu, kuru esat izvēlējies, lai apturētu tveršanu. Pēc tam teksts tiks kopēts starpliktuvē, izvades uznirstošajā logā vai abos. Piemērs ir redzams zemāk.

Pēc ātrās rīka pārbaudes ar attēliem esmu atklājis, ka tā precizitāte ir pienācīga. Acīmredzot tādiem rīkiem kā šis un OCR kopumā ir ierobežojumi. Piemēram, stipri pārveidots teksts (ļoti kursīvs, slīprakstā vai mūsdienīgs) var nedarboties tikpat labi un dažreiz nemaz nedarboties. Turklāt dažos gadījumos tas palīdzēs nedaudz pielāgot uzņemšanas kastes izmērus vai spēlēt ar paša attēla tuvinājumu, lai iegūtu precīzāku rezultātu.

Notverot tekstu no skenētiem PDF dokumentiem, precizitāte ir pareiza, un tvertajā izdrukā joprojām ir vajadzīgas dažas pēdējās modifikācijas (atkarībā no sākotnējās skenēšanas kvalitātes). Turklāt esmu ievērojis, ka programmatūras apstrāde var aizņemt dažas sekundes ilgāk, it īpaši, ja man tiek lūgts konvertēt lielus teksta apjomus.

To sakot, kopumā es domāju, ka rīks veic labu darbu, jo īpaši tāpēc, ka tas ir brīvi pieejams - es aicinu jūs to izmēģināt.

Papildinājums 2015/11/16:

Kā vēl vienu iespēju tiem, kuriem ir Google konti, ir iespējams izmantot arī Google OCR iespējas, augšupielādējot failu savā Google diskā (sīkāku informāciju var atrast šeit). Turklāt Google Chrome lietotājiem ir pieejams arī OCR spraudnis ar nosaukumu Copyfish, kuru varat arī apskatīt.

Kā notvert tekstu no attēliem, izmantojot ocr programmatūru