c # OCR ne peut pas reconnaître les chiffres (tesseract 2)

J’essaie d’extraire les chiffres suivants: http://img96.imageshack.us/img96/5630/aelgg.png

Cela échoue, je reçois un ~ en retour. J’utilise le tesseract 2 de Google, en utilisant C # (wrapper open source c #) et je me demande maintenant si cette image est trop pourrie pour pouvoir être utilisée pour l’OCR?

Parce que, à mon humble avis, les chiffres sont clairs.

Avez-vous un autre moteur OCR en tête qui permettrait de résoudre ce problème?

MODIFIER

J’ai également essayé avec Asprise OCR ( http://asprise.com/product/ocr/selector.php ) mais l’parsing des images échoue également …

Je suggère de redimensionner. J’ai zoomé cette page à 200% dans IE, pris une capture d’écran, je l’ai imprimée au format PDF et imscope dans mon programme qui utilise Tessnet. Tess l’a cloué! À moins que je ne lise le #s mal 🙂

Bien que confiance = 140 (moins de 100 est préférable si vous vous le demandiez). Bien sûr, quand j’ai essayé la taille originale, je n’ai pas eu ~; J’ai environ la moitié des # droite, un tas de lettres et autres ordures. Pas assez bon, mais meilleur.

T2 semble aimer les images d’une certaine taille.

Mon programme effectue le traitement pour que cela fonctionne. Suggérez d’utiliser .net GDI + pour la conversion en 32 bits, redimensionnement avec le mode d’interpolation Bicubique haute qualité. Cela semble “combler les lacunes” un peu.

Jouez avec des tailles qui fonctionnent – j’ai trouvé trop grand ou trop petit et tesseract fonctionne différemment.

Les deux problèmes sont en cours de prétraitement, c’est facile et vous voudriez que tesseract essaie; Cependant, je sais comment redimensionner et interpoler. Je ne sais pas comment faire de la ROC! Donc je suis prêt à régler.

La résolution de votre image est trop faible – 96 ppp, peut-être s’agit-il d’une capture d’écran. Réglez-le à 300 DPI et tessnet2 devrait pouvoir le reconnaître.