COBOL Foro

COBOL Foro (https://www.cobolforo.es/index.php)
-   PowerCOBOL (ActiveX, v4 - v11) (https://www.cobolforo.es/forumdisplay.php?f=9)
-   -   [Sintaxis] leer informacion desde un pdf. (https://www.cobolforo.es/showthread.php?t=1291)

dmosca 28 de marzo de 2021 15:45

leer informacion desde un pdf.
 
Buen dia

tengo facturas de proveedores en archivos pdf, necesito leer información que contienen los pdf.
Ej: datos del emisor, número de orden de compra, importes.
se puede desde Powercobol V9?

muchas gracias.

Joseg 28 de marzo de 2021 19:28

Recomendo:
GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)

Binários, recomendo a versão 4.1.1
Index of /tesseract

Por command line funciona muito bem com o Powercobol
Command Line Usage | tessdoc

ex:

Código COBOL:
  1.   INVOKE pow-self "Execute" USING "tesseract imagename outputbase"

ver tb:
https://erik.joling.me/2019/03/09/co...ocr-on-ubuntu/

dmosca 31 de marzo de 2021 17:21

Estimados

estuve viendo lo que dice JOSEG, pero es para archivos jpg, aclara que no lee pdf.
estamos trabajando con legajos digitales y todos los archivos estan en pdf, no puedo pasar todo a imagen...
alguna otra opción?

Joseg 1 de abril de 2021 09:37

Cita:

Cita del post de dmosca (Mensaje 6601)
Estimados

estuve viendo lo que dice JOSEG, pero es para archivos jpg, aclara que no lee pdf.
estamos trabajando con legajos digitales y todos los archivos estan en pdf, no puedo pasar todo a imagen...
alguna otra opción?

Ahh ok,

Se for apenas para extrair texto, há muitas ferramentas gratuitas.
Por exemplo: GitHub - jamalmazrui/PDF2TXT: Batch convert PDF files to text under Windows, using several text extraction methods or OCR

ou procurar no google
"free command line windows pdf to text"

Também existem vários OCX pagos que fazem o mesmo.


La franja horaria es GMT +1. Ahora son las 09:11.

Powered by: vBulletin, Versión 3.8.7
Derechos de Autor ©2000 - 2021, Jelsoft Enterprises Ltd.