一种利用web方式进行OCR图文识别检索方法和系统的制作方法
技术领域:
本发明涉及图文识别技术领域,特别是涉及一种OCR (Optical Character Recognition,光学字符识别)图文识别检索方法和系统。
背景技术:
检索是指信息按一定的方式组织起来,并根据信息用户的需要找 出有关的信息的过程和技术,即从信息集合中找出所需要的信息的过 程。
由于对图像文件中的文字不能进行很好地识别,所以对不可随意 编辑的图文格式的检索存在很大的困难,这使管理机构面对不同内容 的图像格式,显得那么无所适从,不得不花费大量人力、物力,用人 工方式重新整理、录入、归类,然后才能统一成某种文本格式再检索。
发明内容
本发明实施例要解决的问题是提供一种利用web方式进行OCR 图文识别检索方法和系统,以克服现有技术中很难对不可随意编辑的 图文格式进行检索的缺陷。
为达到上述目的,本发明实施例的技术方案提供一种利用web 方式进行OCR图文识别检索方法,所述方法包括以下步骤A.获 取待识别图文中的文字及图片信息;B.将所述文字及图片信息存储 在OCR数据库中;C.按照关键词,在所述OCR数据库中进行全文 检索。
其中,步骤A具体包括Al.获取待识别图文;A2.对所述图文 进行版面分析;A3.对所述图文进行OCR识别,获取所述图文中的 文字及图片信息。
其中,在步骤A之后,还包括D.对所述文字信息进行校对。其中,步骤D具体包括Dl.对所述文字信息进行横向校对; D2.对所述文字信息进行纵向校对。
其中,在步骤B之前,还包括E.将所述文字及图片信息导出 到可编辑、复制或引用的文本格式文件。
本发明实施例的技术方案还提供一种OCR图文识别检索系统, 所述系统包括图文信息获取单元,用于获取待识别图文中的文字及 图片信息;OCR数据库,用于存储所述文字及图片信息;检索单元, 用于按照关键词,在所述OCR数据库中进行全文检索。
其中,所述文字信息获取单元包括图文获取子单元,用于获取 待识别图文;版面分析子单元,用于对所述图文进行版面分析;图文 识别子单元,用于对所述图文进行OCR识别,获取所述图文中的文 字信息。
其中,所述图文获取子单元为具备拍摄或扫描功能的设备。 其中,所述图文获取子单元为扫描仪、数码相机、 一体化机或拍 照手机。
其中,所述系统还包括校对单元,用于对所述文字信息进行横向 校对和纵向校对。
与现有技术相比,本发明的技术方案具有如下优点 本发明实施例利用OCR图文识别技术,将其高效识别,导出可 编辑的文本格式,再利用全文检索技术,通过输入嵌入在图片资料里 的文字,即可方便高效地检索出所需要的信息资源。
图l是本发明实施例的一种利用web方式进行OCR图文识别检索 方法的流程图2是本发明实施例的另 一 种利用web方式进行OCR图文识别检 索方法的流程图3是本发明实施例的另一种利用web方式进行OCR图文识别检索方法的流程图
图4是本发明实施例的另一种利用web方式进行OCR图文识别检 索方法的流程图
图5是本发明实施例的一种利用web方式进行OCR图文识别检索 系统的结构图。
具体实施例方式
下面结合附图和实施例,对本发明的具体实施方式
作进一步详细
描述。以下实施例用于说明本发明,但不用来限制本发明的范围。 实施例一
本发明实施例的 一 种利用web方式进行OCR图文识别检索方法 如图l所示,包括以下步骤
步骤sl01,获取待识别图文。本实施例通过扫描仪、数码相机、 一体化机、拍照手机等任何具备拍摄、扫描功能的设备获取待识别图文。
步骤sl02,对所述图文进行版面分析。
步骤sl03,对所述图文进行OCR识别,获取所述图文中的文字及 图片信息。
步骤sl04,将所述文字及图片信息存储在OCR数据库中。 步骤sl05,按照关键词,在所述OCR数据库中进行全文检索。本
实施例利用全文检索技术,通过输入嵌入在图片资料里的文字,即可
方便高效的检索出所需要的信息资源。
实施例二
本发明实施例的 一 种利用web方式进行OCR图文识别检索方法 如图2所示,包括以下步骤
步骤s201,获取待识别图文。本实施例通过扫描仪、数码相机、 一体化机、拍照手机等任何具备拍摄、扫描功能的设备获取待识别图 文。
6步骤s202,对所述图文进行版面分析。
步骤s203,对所述图文进行OCR识别,获取所述图文中的文字及 图片信息。
步骤s204,对所述文字信息进行校对。本实施例对复杂版面进行
自动分析,智能分析各种混排格式的文本,针对识别文件实行横向和
纵向全面校队,无需过多人工干预。
步骤s205,将所述文字及图片信息存储在OCR数据库中。 步骤s206,按照关键词,在所述OCR数据库中进行全文检索。本
实施例利用全文检索技术,通过输入嵌入在图片资料里的文字,即可
方便高效的检索出所需要的信息资源。
实施例三
本发明实施例的 一 种利用web方式进行OCR图文识别检索方法 如图3所示,包括以下步骤
步骤s301,获取待识别图文。本实施例通过扫描仪、数码相机、 一体化机、拍照手机等任何具备拍摄、扫描功能的设备获取待识别图 文。
步骤s302,对所述图文进行版面分析。
步骤s303,对所述图文进行OCR识别,获取所述图文中的文字及 图片信息。
步骤s304,将所述文字及图片信息导出到可编辑、复制或引用的 文本格式文件。本实施例中,所述文本格式文件包括word、 rtf等多种 可编辑、复制和引用的文本格式文件。
步骤s305,将所述文字信息存储在OCR数据库中。
步骤s306,按照关键词,在所述OCR数据库中进行全文检索。本
实施例利用全文检索技术,通过输入嵌入在图片资料里的文字,即可
方便高效的检索出所需要的信息资源。
实施例四
7本发明实施例的 一 种利用web方式进行OCR图文识别检索方法 如图4所示,包括以下步骤
步骤s401,获取待识别图文。本实施例通过扫描仪、数码相机、 一体化机、拍照手机等任何具备拍摄、扫描功能的设备获取待识别图 文。
步骤s402,对所述图文进行版面分析。
步骤s403,对所述图文进行OCR识别,获取所述图文中的文字及 图片信息。
步骤s404,对所述文字信息进行校对。本实施例对复杂版面进行 自动分析,智能分析各种混排格式的文本,针对识别文件实行横向和 纵向全面校队,无需过多人工干预。
步骤s405,将所述文字及图片信息导出到可编辑、复制或引用的
文本格式文件。本实施例中,所述文本格式文件包括word、 rtf等多种
可编辑、复制和引用的文本格式文件。
步骤s406,将所述文字及图片信息存储在OCR数据库中。 步骤s407,按照关键词,在所述OCR数据库中进行全文检索。本
实施例利用全文检索技术,通过输入嵌入在图片资料里的文字,即可
方便高效的检索出所需要的信息资源。
本发明实施例的 一种利用web方式进行OCR图文识别检索系统 如图5所示,包括图文信息获取单元、校对单元、OCR数据库和检 索单元。其中,校对单元分别与图文信息获取单元和OCR数据库连 接,检索单元与OCR数据库连接。
图文信息获取单元用于获取待识别图文中的文字及图片信息;校 对单元用于对所述文字信息进行横向校对和纵向校对;OCR数据库 用于存储所述文字及图片信息;检索单元用于按照关键词,在所述 OCR数据库中进行全文检索。
图文信息获取单元包括图文获取子单元、版面分析子单元和图文识别子单元,其中版面分析子单元分别与图文获取子单元和图文识别 子单元连接。
图文获取子单元为具备拍摄或扫描功能的设备,用于获取待识别 图文,可以是扫描仪、数码相机、 一体化机或拍照手机等;版面分析
子单元用于对所述图文进行版面分析;图文识别子单元用于对所述图
文进行OCR识别,获取所述图文中的文字及图片信息。
本发明将不可随意编辑的图文格式资料,依托OCR研发技术的 优势,将其随意导出到指定的word、 rtf等多种可编辑、复制和引用 的文本格式文件,经处理后可将图像文字存储于数据库中,便于大量 文档的存储、管理、共享、传输和检索。本发明识别准确率高,鲁棒 性强,无缝整合了版面分析、图像识别、智能识别和全文检索的全过 程。本发明可以通过扫描仪、数码相机、 一体化机、拍照手机等任何 具备拍摄、扫描功能的设备,随时随地的对图像文件中的图文进行 OCR识别,现有的OCR产品都是软硬件结合在一起的,而本发明摆 脱了硬件的束缚,实现了单一软件和多种硬件的随意结合,充分利用 现有的设备,完成繁瑣的录入、整理及后期的文档共享及检索工作。 本发明利用OCR图文识别技术,将其高效识别,导出可编辑的 word、 rtf等文本格式,再利用全文检索技术,通过输入嵌入在图片 资料里的文字,即可方便高效的检索出所需要的信息资源,从而能够 快捷、高效、精准的完成对图像格式的智能识别,充分满足了管理人 员、办公人员等不同需求的录入工作,为其节省了大量的时间,提高 了效率。
本发明对于复杂版面可以进行自动分析,智能分析各种混排格式 的文本,针对识别文件实行横向和竖向全面校队,无需过多人工干预。 而且,本发明可以进行版面还原,精确保留了原版面格式,准确恢复 文本原貌。本发明具有强大的公文处理能力,能够准确再现公文原貌。 本发明实现了单一软件和多种硬件的随意结合,充分利用现有的设备,完成繁瑣的录入、整理工作。本发明利用全文检索技术,输入嵌入在图片资料里的文字信息,即可快捷、高效的查找到所需要的图文资料
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
权利要求
1、一种利用web方式进行OCR图文识别检索方法,其特征在于,所述方法包括以下步骤A. 获取待识别图文中的文字信息;B. 将所述文字及图片信息存储在OCR数据库中;C. 按照关键词,在所述OCR数据库中进行全文检索。
2、 如权利要求l所述的OCR图文识别检索方法,其特征在于, 步骤A具体包括Al.获取待识别图文;A2.对所述图文进行版面分析;A3.对所述图文进行OCR识别,获取所述图文中的文字及图片乂士自 1吕W、。
3、 如权利要求1所述的利用web方式进行OCR图文识别检索 方法,其特征在于,在步骤A之后,还包括D. 对所述文字信息进行校对。
4、 如权利要求3所述的OCR阁文识别检索方法,其特征在于, 步骤D具体包括Dl.对所述文字信息进行横向校对; D2.对所述文字信息进行纵向校对。
5、 如权利要求l所述的OCR图文识别检索方法,其特征在于, 在步骤B之前,还包括E. 将所述文字及图片信息导出到可编辑、复制或引用的文本格 式文件。
6、 一种OCR图文识别检索系统,其特征在于,所述系统包括 图文信息获取单元,用于获取待识别图文中的文字及图片信息; OCR数据库,用于存储所述文字信息;检索单元,用于按照关键词,在所述OCR数据库中进行全文检索。
7、 如权利要求6所述的OCR图文识别检索系统,其特征在于,所述文字信息获取单元包括图文获取子单元,用于获取待识别图文;版面分析子单元,用于对所述图文进行版面分析;图文识别子单元,用于对所述图文进行OCR识别,获取所述图文中的文字及图片信息。
8、 如权利要求7所述的OCR图文识别检索系统,其特征在于,所述图文获取子单元为具备拍摄或扫描功能的设备。
9、 如权利要求8所述的OCR图文识别检索系统,其特征在于,所述图文获取子单元为扫描仪、数码相机、 一体化机或拍照手机。
10、 如权利要求6所述的OCR图文识别检索系统,其特征在于,所述系统还包括校对单元,用于对所述文字信息进行横向校对和纵向校对。
全文摘要
本发明公开了一种利用web方式进行OCR图文识别检索方法,所述方法包括以下步骤获取待识别图文中的文字及图片信息;将所述文字及图片信息存储在OCR数据库中;按照关键词,在所述OCR数据库中进行全文检索。本发明还公开了一种OCR图文识别检索系统,所述系统包括图文信息获取单元、OCR数据库和检索单元。本发明利用OCR图文识别技术,将其高效识别,导出可编辑的文本格式,再利用全文检索技术,通过输入嵌入在图片资料里的文字,即可方便高效地检索出所需要的信息资源。
文档编号G06F17/30GK101464903SQ20091007615
公开日2009年6月24日 申请日期2009年1月9日 优先权日2009年1月9日
发明者辉 凌, 黄惠良 申请人:江阴明伦科技有限公司
文档序号 :
【 6483577 】
技术研发人员:黄惠良,凌辉
技术所有人:江阴明伦科技有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
技术研发人员:黄惠良,凌辉
技术所有人:江阴明伦科技有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除