首先我得承认,关注tesseract-ocr, 是冲着下面这篇文章的噱头去的,26行groovy代码破解网站验证码
http://www.kellyrob99.com/blog/2010/03/14/breaking-weak-captcha-in-slightly-more-than-26-lines-of-groovy-code/
当然,看了之后才知道,原来是调用了三方库tesseract-ocr……
http://code.google.com/p/tesseract-ocr/
尽管如此,本着邓爷爷的“不管白猫黑猫,能抓住老鼠的就是好猫”的原则,趁着假期也开始了“文字识别”的初级研究
HP的tesseract最近被Google支持并开支持英文字母和数字,据说辨识程度是世界排名第三的;更难能可贵的是,提供多国语言包下载(包括中文,精度不咋的倒是真的……),并自带训练工具。
安装完并跑过自带例子之后,首先想到的应用自然是用于验证码分析
按照说明,送入tesseract的图片的质量直接影响识别的效果,因此,简单的预处理是不可或缺的
1.首先灰度化,灰度值=0.3R+0.59G+0.11B:
for (int y = minY; y < height; y++) {
for (int x = minX; x < width; x++) {
int rgb = srcImg.getRGB(x, y);
Color color = new Color(rgb); // 根据rgb的int值分别取得r,g,b颜色。
int gray = (int) (0.3 * color.getRed() + 0.59
* color.getGreen() + 0.11 * color.getBlue());
Color newColor = new Color(gray, gray, gray);
srcImg.setRGB(x, y, newColor.getRGB());
}
}
结果如图:
2.其次是灰度反转:
for (int y = minY; y < height; y++) {
for (int x = minX; x < width; x++) {
int rgb = buffImg.getRGB(x, y);
Color color = new Color(rgb); // 根据rgb的int值分别取得r,g,b颜色。
Color newColor = new Color(255 - color.getRed(), 255 - color
.getGreen(), 255 - color.getBlue());
buffImg.setRGB(x, y, newColor.getRGB());
}
}
结果如图:
3.再次是二值化,取图片的平均灰度作为阈值,低于该值的全都为0,高于该值的全都为255:
for (int y = minY; y < height; y++) {
for (int x = minX; x < width; x++) {
int rgb = buffImg.getRGB(x, y);
Color color = new Color(rgb); // 根据rgb的int值分别取得r,g,b颜色。
int value = 255 - color.getBlue();
if (value > average) {
Color newColor = new Color(0, 0, 0);
buffImg.setRGB(x, y, newColor.getRGB());
} else {
Color newColor = new Color(255, 255, 255);
buffImg.setRGB(x, y, newColor.getRGB());
}
}
}
结果如图:
看看效果还凑合,就省却尺寸调整、中值滤波以及噪点去除等步骤了。
以上完成图片预处理工作;Tesseract没有开放api,纯命令行调用:
List<String> cmd = new ArrayList<String>(); // 存放命令行参数的数组
cmd.add(tessPath + "\\tesseract");
cmd.add("");
cmd.add(outputFile.getName()); // 输出文件位置
cmd.add(LANG_OPTION); // 字符类别
cmd.add("eng"); // 英文,找到tessdata里对应的字典文件。
ProcessBuilder pb = new ProcessBuilder();
pb.directory(imageFile.getParentFile());
cmd.set(1, tempImage.getName()); // 把图片文件位置放在第一个位置
pb.command(cmd); // 执行命令行
pb.redirectErrorStream(true); // 通知进程生成器是否合并标准错误和标准输出,把进程错误保存起来。
Process process = pb.start(); // 开始执行进程
int w = process.waitFor(); // 当前进程停止,直到process停止执行,返回执行结果.
结果输出表示一切正常
当然,真正要用好tesseract-ocr,还需用到其强大地训练工具,就是后话了……
另外,关于文字识别,除去作为破解验证码的反制手段之外,我们是否也有相关的应用呢?
- 大小: 1.1 KB
- 大小: 1.3 KB
- 大小: 1.3 KB
- 大小: 1.4 KB
分享到:
相关推荐
tesseract-ocr 验证码识别 32位 最新版 4.1 tesseract-ocr 验证码识别 32位 最新版 4.1 tesseract-ocr 验证码识别 32位 最新版 4.1 tesseract-ocr 验证码识别 32位 最新版 4.1
tesseract-ocr的简体中文语言训练数据,来自google官网,可以用于中文的图片验证码识别,对于比较标准的字体还是有不错的识别率的
使用tesseract-ocr破解验证码详解.rar
使用tesseract-ocr破解验证码详解.pdf
tesseract-ocr 验证码识别 64位 最新版 4.1 tesseract-ocr 验证码识别 64位 最新版 4.1 tesseract-ocr 验证码识别 64位 最新版 4.1
ocr光学识别系统,可以识别中文,英文,日文,韩文。。。等国家文字,在python爬虫的时候,应用于验证码的破解。以及pdf文档转word,
识别图片验证码。在java中使用tessj4时,需要先安装此软件
tesseract-ocr-setup-3.01-1图像识别工具
语言训练库,放在这里备份自己用。设置了低积分,大家要用的可用方便下载。50积分实在是太贵了。自用是用作tess4j进行验证码识别使用的。
验证码识别,tesseract-ocr-setup-3.02.02.exe和pytesseract用于验证码识别
本资源提供了一个利用开源tesseract-ocr工具进行图片验证识别的java-demo。demo中提供两个组件。一个OcrUtil:可以实现base64格式的图片内容转为位图片文件,将图片文件中的内容通过orc识别出来,如果图片中的内容为...
使用tesseract来进行图片识别,验证码识别,使用jTessBoxEditor自定义语言库提高识别率,及语言库的合并,可以参考博客 https://xujd.top/article/view.do?UUMnF0tjG1NJE14mRg7CvU9S
tesseract-ocr-4.0.0是原先惠普开发的图像识别类库,后面成为Open source,这次为大家提供的版本是4.0.0 for windows。 python图形验证码识别可用:安装Pillow+tesseract-ocr+pytesseract模块
http://blog.csdn.net/firehood_/article/details/8433077 本人参考这篇博客练习样本训练,整理了这些材料,材料中包括以下这些tesseract-ocr-setup-3.01-1.rar:tesseract-ocr-setup-3.01-1.exe安装包、...
tesserocr是python的一个OCR识别库,可以将图形验证码转化为文本,安装该文件后,需要再安装tesserocr方能使用,方法如下 pip install tesserocr pillow 使用该命令需要把python安装目录下的scripts加到环境变量里
安装步骤查看博文: https://blog.csdn.net/qq_39720249/article/details/83110855
俗话说前人栽树,后人乘凉,此话一点不假,结合云层的一遍文章:http://bbs.51testing.com/thread-533920-1-1.html,知道还有一个Tesseract-OCR可以用来识别图片上的文字(验证码)。 俗话说前人栽树,后人乘凉,此...
好不容易找到的,但由于太大,上传不了,只能传下载地址了,大家自己看吧
使用Tesseract-OCR在loadrunner中识别验证码,知道还有一个Tesseract-OCR可以用来识别图片上的文字(验证码)。 有一个Tesseract-OCR可以用来识别图片上的文字(验证码)。 在code.google上下载了tesseract-ocr-setup-...
用来做图片内容识别和验证码识别