用Python快速搜索答题类app问题

前言

最近答题类app比较火爆,由于题目广并且时间短,自己打字搜索是不太可能的了,于是想自己做一个自动搜索的Python脚本

该Python脚本的原理是用adb工具将手机截图传到电脑上进行文字识别,然后百度搜索该问题,打开浏览器时间还是比较慢的

文字识别库pytesseract

pytesseract库的安装

这个库的安装特别容易,在命令行中输入

pip install pytesseract

即可安装

tesseract ocr引擎

tesseract ocr引擎是一个开源的强大引擎,安装Windows然后通过相关变量设置即可使用

image_to_string函数

该函数为pytesseract库的方法,将图片文本转换为文字

from PIL import Image
import pytesseract
question_text = pytesseract.image_to_string(question_img, lang='chi_sim').replace(' ','')

上述为基础用法,并且将空格替换掉

adb工具

简介

adb全名Android Debug Bridge,通过该工具,可以在电脑端的命令行与安装手机进行交互,前提是手机开启USB调试

adb有很多功能,它可以模拟屏幕触击,之前火热的跳一跳辅助正是利用该原理进行操作的

python代码中使用adb

python代码中使用adb shell很简单

import os
def pull_screenshot():
    os.system('adb shell screencap -p /sdcard/screenshot.png')
    os.system('adb pull /sdcard/screenshot.png')

这样操作便可以模拟命令行输入将手机端截图发送至脚本目录

完整代码

from PIL import Image
import pytesseract
import time
import os
import webbrowser

def pull_screenshot():
    os.system('adb shell screencap -p /sdcard/screenshot.png')
    os.system('adb pull /sdcard/screenshot.png')

def main():
    pull_screenshot()
    img = Image.open("./screenshot.png")
    question_img = img.crop((65,350,1019,621))
    question_text = pytesseract.image_to_string(question_img, lang='chi_sim').replace(' ','')
    webbrowser.open("https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=2&tn=baiduhome_pg&wd="+question_text)

if __name__ == '__main__':
    main()

使用之后发现耗时还是比较久的,在识别1-2s后才能打开浏览器进行搜索,然后我们再找答案的话就可能时间到了

于是改进可以使用爬虫,选定搜索结果的相关网页进行关键词的搜索,进行答案的排查搜索