使用tesseract-ocr破解网站验证码

grunt1223

浏览: 419718 次
性别:
来自: 杭州

最近访客更多访客>>

yymm_1234

lazy_luo

asdface

cnyoky

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

图像识别、机器学习、数据挖掘

Groovy HP Google Blog

首先我得承认，关注tesseract-ocr，是冲着下面这篇文章的噱头去的，26行groovy代码破解网站验证码
http://www.kellyrob99.com/blog/2010/03/14/breaking-weak-captcha-in-slightly-more-than-26-lines-of-groovy-code/

当然，看了之后才知道，原来是调用了三方库tesseract-ocr……
http://code.google.com/p/tesseract-ocr/

尽管如此，本着邓爷爷的“不管白猫黑猫，能抓住老鼠的就是好猫”的原则，趁着假期也开始了“文字识别”的初级研究

HP的tesseract最近被Google支持并开支持英文字母和数字，据说辨识程度是世界排名第三的；更难能可贵的是，提供多国语言包下载（包括中文，精度不咋的倒是真的……），并自带训练工具。

安装完并跑过自带例子之后，首先想到的应用自然是用于验证码分析

按照说明，送入tesseract的图片的质量直接影响识别的效果，因此，简单的预处理是不可或缺的

1.首先灰度化，灰度值=0.3R+0.59G+0.11B：

 
for (int y = minY; y < height; y++) {
    for (int x = minX; x < width; x++) {
        int rgb = srcImg.getRGB(x, y);
        Color color = new Color(rgb); // 根据rgb的int值分别取得r,g,b颜色。
        int gray = (int) (0.3 * color.getRed() + 0.59
            * color.getGreen() + 0.11 * color.getBlue());
        Color newColor = new Color(gray, gray, gray);
        srcImg.setRGB(x, y, newColor.getRGB());
    }
}

结果如图：

2.其次是灰度反转：

for (int y = minY; y < height; y++) {
    for (int x = minX; x < width; x++) {
        int rgb = buffImg.getRGB(x, y);
        Color color = new Color(rgb); // 根据rgb的int值分别取得r,g,b颜色。
        Color newColor = new Color(255 - color.getRed(), 255 - color
            .getGreen(), 255 - color.getBlue());
        buffImg.setRGB(x, y, newColor.getRGB());
    }
}

结果如图：

3.再次是二值化，取图片的平均灰度作为阈值，低于该值的全都为0，高于该值的全都为255：

for (int y = minY; y < height; y++) {
    for (int x = minX; x < width; x++) {
        int rgb = buffImg.getRGB(x, y);
        Color color = new Color(rgb); // 根据rgb的int值分别取得r,g,b颜色。
        int value = 255 - color.getBlue();
        if (value > average) {
            Color newColor = new Color(0, 0, 0);
            buffImg.setRGB(x, y, newColor.getRGB());
        } else {
            Color newColor = new Color(255, 255, 255);
            buffImg.setRGB(x, y, newColor.getRGB());
        }
    }
}

结果如图：

看看效果还凑合，就省却尺寸调整、中值滤波以及噪点去除等步骤了。

以上完成图片预处理工作；Tesseract没有开放api，纯命令行调用：

List<String> cmd = new ArrayList<String>(); // 存放命令行参数的数组
cmd.add(tessPath + "\\tesseract");
cmd.add("");
cmd.add(outputFile.getName()); // 输出文件位置
cmd.add(LANG_OPTION); // 字符类别
cmd.add("eng"); // 英文，找到tessdata里对应的字典文件。
ProcessBuilder pb = new ProcessBuilder();
pb.directory(imageFile.getParentFile());

cmd.set(1, tempImage.getName()); // 把图片文件位置放在第一个位置

pb.command(cmd); // 执行命令行
pb.redirectErrorStream(true); // 通知进程生成器是否合并标准错误和标准输出,把进程错误保存起来。
Process process = pb.start(); // 开始执行进程

int w = process.waitFor(); // 当前进程停止,直到process停止执行，返回执行结果.

结果输出表示一切正常

当然，真正要用好tesseract-ocr，还需用到其强大地训练工具，就是后话了……

另外，关于文字识别，除去作为破解验证码的反制手段之外，我们是否也有相关的应用呢？

查看图片附件

2
顶

0
踩

分享到：

杀人不难——读《放学后》有感 | JAVA并发设计模式学习笔记（二）—— Singl ...

2011-02-12 10:24
浏览 41630
评论(7)
分类:编程语言
查看更多

7 楼 bert82503 2014-12-19

通过下面方法计算"图片的平均灰度"时，二值化时生成的图像就和你一样了。谢谢！
average += 255 - color.getBlue();

6 楼 bert82503 2014-12-19

按照上述步骤，发现“3.再次是二值化”生成的图像和你的不一样，前面两个步骤的图像是一样的。从程序看，应该是计算 average 方式不同引起的。
average 是怎么计算的，相关代码能贴处理吗？

5 楼 wangbaby19 2014-08-06

我也觉得，如果什么都没有，你写出来，做什么呢？浪费别人时间

4 楼 csevan 2014-04-02

这种比较简单，那种非正常字体带干扰现的就难咯！

3 楼 ron.luo 2013-12-06

瞧瞧，无源码，无真相啊！

2 楼 javanet2010 2012-08-18

又不写全，找都找不到。郁闷，你还不如不发

1 楼 javayuan920 2012-04-18

楼主：你能把你写的tesseract Test给我发一下吗，不慎感谢！急需！javayuan920@126.com

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论