Anonim

Una delle cose che mi ha spesso frustrato è l'incapacità di copiare facilmente il testo da immagini e alcuni file PDF (ad esempio quelli che potrebbero essere stati creati da documenti scansionati). Per fortuna, nel corso del tempo sono state sviluppate soluzioni software per risolvere questo problema, consentendo risparmi significativi di tempo che altrimenti sarebbero stati spesi copiando e riscrivendo manualmente il testo. Nel suggerimento di oggi, parlerò di uno strumento software gratuito chiamato Capture2Text che utilizza un algoritmo di riconoscimento ottico dei caratteri (OCR) che ti permetterà di acquisire testo da file di immagini e PDF.

Installazione e configurazione

Per iniziare, vai alla pagina SourceForge del progetto e scarica l'ultima versione di Capture2Text. Il software viene fornito come archivio zip e al momento non include un programma di installazione dedicato. Una volta scaricato, decomprimere l'archivio e avviare il file Capture2Text.exe. Questo avvierà il software e posizionerà un'icona nella barra delle applicazioni:

Innanzitutto, ciò che vorrete fare è impostare le preferenze del software, in particolare quali tasti di scelta rapida (o scorciatoie) utilizzare per avviare e interrompere l'acquisizione:

Nel mio caso, ho scelto di utilizzare i tasti "Windows + q" per avviare l'acquisizione e "Invio" per interromperlo. Puoi adattare queste opzioni a ciò che funziona meglio per te. Tieni presente che il tasto "Windows + s" è spesso già utilizzato per l'acquisizione dello schermo (ad esempio, da programmi come Microsoft One Note).

Nella scheda successiva, le opzioni OCR possono essere configurate includendo la lingua di input (attualmente sono supportate sette lingue) e se utilizzare la pre-elaborazione OCR per migliorare l'accuratezza (altamente raccomandato). Infine, nella scheda Output, tra le altre opzioni, è possibile scegliere se salvare il testo acquisito negli Appunti o se avviare una finestra popup separata.

Utilizzo del software

Una volta che il software è installato e configurato, è possibile iniziare a usarlo tramite la combinazione di tasti di scelta rapida avvia acquisizione. Usando il mouse, seleziona l'area sull'immagine che include il testo che desideri catturare. Per interrompere l'acquisizione, basta premere il tasto di scelta rapida che hai scelto di interrompere l'acquisizione. Il testo verrà quindi copiato negli Appunti, in una finestra popup di output o in entrambi. Di seguito è riportato un esempio.

Dal mio rapido test dello strumento con immagini, ho trovato la sua precisione decente. Ovviamente, ci sono limiti a strumenti come questo e l'OCR in generale. Ad esempio, il testo fortemente modificato (molto corsivo, in corsivo o moderno) potrebbe non funzionare altrettanto bene, e talvolta non lo è affatto. Inoltre, in alcuni casi sarà utile regolare leggermente le dimensioni del riquadro di acquisizione o giocare con lo zoom sull'immagine stessa per ottenere un risultato più accurato.

Quando si acquisisce testo da documenti PDF scansionati l'accuratezza è ok, con alcune modifiche finali generalmente ancora necessarie sull'output acquisito (a seconda della qualità della scansione iniziale). Inoltre, ho notato che l'elaborazione del software potrebbe richiedere alcuni secondi in più, in particolare quando viene chiesto di convertire grandi quantità di testo.

Detto questo, nel complesso penso che lo strumento faccia un buon lavoro, soprattutto perché è liberamente disponibile - ti incoraggio a provarlo.

Addendum 16/11/2015:

Come altra opzione, per coloro che dispongono di account Google, è anche possibile utilizzare le funzionalità OCR di Google caricando un file su Google Drive (ulteriori dettagli sono disponibili qui). Inoltre, c'è anche un plug-in OCR disponibile per gli utenti di Google Chrome chiamato Copyfish che potresti voler controllare anche.

Come acquisire testo da immagini con il software ocr