一种利用web方式进行OCR图文识别检索方法和系统的制作方法

2025-09-10 16:00:01 389次浏览

专利名称：一种利用web方式进行OCR图文识别检索方法和系统的制作方法
技术领域：
本发明涉及图文识别技术领域，特别是涉及一种OCR (Optical Character Recognition,光学字符识别)图文识别检索方法和系统。
背景技术：
检索是指信息按一定的方式组织起来，并根据信息用户的需要找出有关的信息的过程和技术，即从信息集合中找出所需要的信息的过程。
由于对图像文件中的文字不能进行很好地识别，所以对不可随意编辑的图文格式的检索存在很大的困难，这使管理机构面对不同内容的图像格式，显得那么无所适从，不得不花费大量人力、物力，用人工方式重新整理、录入、归类，然后才能统一成某种文本格式再检索。

发明内容
本发明实施例要解决的问题是提供一种利用web方式进行OCR 图文识别检索方法和系统，以克服现有技术中很难对不可随意编辑的图文格式进行检索的缺陷。
为达到上述目的，本发明实施例的技术方案提供一种利用web 方式进行OCR图文识别检索方法，所述方法包括以下步骤A.获取待识别图文中的文字及图片信息；B.将所述文字及图片信息存储在OCR数据库中；C.按照关键词，在所述OCR数据库中进行全文检索。
其中，步骤A具体包括Al.获取待识别图文；A2.对所述图文进行版面分析；A3.对所述图文进行OCR识别，获取所述图文中的文字及图片信息。
其中，在步骤A之后，还包括D.对所述文字信息进行校对。其中，步骤D具体包括Dl.对所述文字信息进行横向校对； D2.对所述文字信息进行纵向校对。
其中，在步骤B之前，还包括E.将所述文字及图片信息导出到可编辑、复制或引用的文本格式文件。
本发明实施例的技术方案还提供一种OCR图文识别检索系统，所述系统包括图文信息获取单元，用于获取待识别图文中的文字及图片信息；OCR数据库，用于存储所述文字及图片信息；检索单元，用于按照关键词，在所述OCR数据库中进行全文检索。
其中，所述文字信息获取单元包括图文获取子单元，用于获取待识别图文；版面分析子单元，用于对所述图文进行版面分析；图文识别子单元，用于对所述图文进行OCR识别，获取所述图文中的文字信息。
其中，所述图文获取子单元为具备拍摄或扫描功能的设备。其中，所述图文获取子单元为扫描仪、数码相机、一体化机或拍照手机。
其中，所述系统还包括校对单元，用于对所述文字信息进行横向校对和纵向校对。
与现有技术相比，本发明的技术方案具有如下优点本发明实施例利用OCR图文识别技术，将其高效识别，导出可编辑的文本格式，再利用全文检索技术，通过输入嵌入在图片资料里的文字，即可方便高效地检索出所需要的信息资源。

图l是本发明实施例的一种利用web方式进行OCR图文识别检索方法的流程图2是本发明实施例的另一种利用web方式进行OCR图文识别检索方法的流程图3是本发明实施例的另一种利用web方式进行OCR图文识别检索方法的流程图
图4是本发明实施例的另一种利用web方式进行OCR图文识别检索方法的流程图
图5是本发明实施例的一种利用web方式进行OCR图文识别检索系统的结构图。
具体实施例方式
下面结合附图和实施例，对本发明的具体实施方式
作进一步详细
描述。以下实施例用于说明本发明，但不用来限制本发明的范围。实施例一
本发明实施例的一种利用web方式进行OCR图文识别检索方法如图l所示，包括以下步骤
步骤sl01，获取待识别图文。本实施例通过扫描仪、数码相机、一体化机、拍照手机等任何具备拍摄、扫描功能的设备获取待识别图文。
步骤sl02，对所述图文进行版面分析。
步骤sl03,对所述图文进行OCR识别，获取所述图文中的文字及图片信息。
步骤sl04,将所述文字及图片信息存储在OCR数据库中。步骤sl05,按照关键词，在所述OCR数据库中进行全文检索。本
实施例利用全文检索技术，通过输入嵌入在图片资料里的文字，即可
方便高效的检索出所需要的信息资源。
实施例二
本发明实施例的一种利用web方式进行OCR图文识别检索方法如图2所示，包括以下步骤
步骤s201，获取待识别图文。本实施例通过扫描仪、数码相机、一体化机、拍照手机等任何具备拍摄、扫描功能的设备获取待识别图文。
6步骤s202,对所述图文进行版面分析。
步骤s203，对所述图文进行OCR识别，获取所述图文中的文字及图片信息。
步骤s204,对所述文字信息进行校对。本实施例对复杂版面进行
自动分析，智能分析各种混排格式的文本，针对识别文件实行横向和
纵向全面校队，无需过多人工干预。
步骤s205，将所述文字及图片信息存储在OCR数据库中。步骤s206，按照关键词，在所述OCR数据库中进行全文检索。本
实施例利用全文检索技术，通过输入嵌入在图片资料里的文字，即可
方便高效的检索出所需要的信息资源。
实施例三
本发明实施例的一种利用web方式进行OCR图文识别检索方法如图3所示，包括以下步骤
步骤s301，获取待识别图文。本实施例通过扫描仪、数码相机、一体化机、拍照手机等任何具备拍摄、扫描功能的设备获取待识别图文。
步骤s302,对所述图文进行版面分析。
步骤s303，对所述图文进行OCR识别，获取所述图文中的文字及图片信息。
步骤s304，将所述文字及图片信息导出到可编辑、复制或引用的文本格式文件。本实施例中，所述文本格式文件包括word、 rtf等多种可编辑、复制和引用的文本格式文件。
步骤s305，将所述文字信息存储在OCR数据库中。
步骤s306，按照关键词，在所述OCR数据库中进行全文检索。本
实施例利用全文检索技术，通过输入嵌入在图片资料里的文字，即可
方便高效的检索出所需要的信息资源。
实施例四
7本发明实施例的一种利用web方式进行OCR图文识别检索方法如图4所示，包括以下步骤
步骤s401，获取待识别图文。本实施例通过扫描仪、数码相机、一体化机、拍照手机等任何具备拍摄、扫描功能的设备获取待识别图文。
步骤s402，对所述图文进行版面分析。
步骤s403，对所述图文进行OCR识别，获取所述图文中的文字及图片信息。
步骤s404，对所述文字信息进行校对。本实施例对复杂版面进行自动分析，智能分析各种混排格式的文本，针对识别文件实行横向和纵向全面校队，无需过多人工干预。
步骤s405，将所述文字及图片信息导出到可编辑、复制或引用的
文本格式文件。本实施例中，所述文本格式文件包括word、 rtf等多种
可编辑、复制和引用的文本格式文件。
步骤s406，将所述文字及图片信息存储在OCR数据库中。步骤s407，按照关键词，在所述OCR数据库中进行全文检索。本
实施例利用全文检索技术，通过输入嵌入在图片资料里的文字，即可
方便高效的检索出所需要的信息资源。
本发明实施例的一种利用web方式进行OCR图文识别检索系统如图5所示，包括图文信息获取单元、校对单元、OCR数据库和检索单元。其中，校对单元分别与图文信息获取单元和OCR数据库连接，检索单元与OCR数据库连接。
图文信息获取单元用于获取待识别图文中的文字及图片信息；校对单元用于对所述文字信息进行横向校对和纵向校对；OCR数据库用于存储所述文字及图片信息；检索单元用于按照关键词，在所述 OCR数据库中进行全文检索。
图文信息获取单元包括图文获取子单元、版面分析子单元和图文识别子单元，其中版面分析子单元分别与图文获取子单元和图文识别子单元连接。
图文获取子单元为具备拍摄或扫描功能的设备，用于获取待识别图文，可以是扫描仪、数码相机、一体化机或拍照手机等；版面分析
子单元用于对所述图文进行版面分析；图文识别子单元用于对所述图
文进行OCR识别，获取所述图文中的文字及图片信息。
本发明将不可随意编辑的图文格式资料，依托OCR研发技术的优势，将其随意导出到指定的word、 rtf等多种可编辑、复制和引用的文本格式文件，经处理后可将图像文字存储于数据库中，便于大量文档的存储、管理、共享、传输和检索。本发明识别准确率高，鲁棒性强，无缝整合了版面分析、图像识别、智能识别和全文检索的全过程。本发明可以通过扫描仪、数码相机、一体化机、拍照手机等任何具备拍摄、扫描功能的设备，随时随地的对图像文件中的图文进行 OCR识别，现有的OCR产品都是软硬件结合在一起的，而本发明摆脱了硬件的束缚，实现了单一软件和多种硬件的随意结合，充分利用现有的设备，完成繁瑣的录入、整理及后期的文档共享及检索工作。本发明利用OCR图文识别技术，将其高效识别，导出可编辑的 word、 rtf等文本格式，再利用全文检索技术，通过输入嵌入在图片资料里的文字，即可方便高效的检索出所需要的信息资源，从而能够快捷、高效、精准的完成对图像格式的智能识别，充分满足了管理人员、办公人员等不同需求的录入工作，为其节省了大量的时间，提高了效率。
本发明对于复杂版面可以进行自动分析，智能分析各种混排格式的文本，针对识别文件实行横向和竖向全面校队，无需过多人工干预。而且，本发明可以进行版面还原，精确保留了原版面格式，准确恢复文本原貌。本发明具有强大的公文处理能力，能够准确再现公文原貌。本发明实现了单一软件和多种硬件的随意结合，充分利用现有的设备，完成繁瑣的录入、整理工作。本发明利用全文检索技术，输入嵌入在图片资料里的文字信息，即可快捷、高效的查找到所需要的图文资料
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。
权利要求
1、一种利用web方式进行OCR图文识别检索方法，其特征在于，所述方法包括以下步骤A. 获取待识别图文中的文字信息；B. 将所述文字及图片信息存储在OCR数据库中；C. 按照关键词，在所述OCR数据库中进行全文检索。
2、如权利要求l所述的OCR图文识别检索方法，其特征在于，步骤A具体包括Al.获取待识别图文；A2.对所述图文进行版面分析；A3.对所述图文进行OCR识别，获取所述图文中的文字及图片乂士自 1吕W、。
3、如权利要求1所述的利用web方式进行OCR图文识别检索方法，其特征在于，在步骤A之后，还包括D. 对所述文字信息进行校对。
4、如权利要求3所述的OCR阁文识别检索方法，其特征在于，步骤D具体包括Dl.对所述文字信息进行横向校对； D2.对所述文字信息进行纵向校对。
5、如权利要求l所述的OCR图文识别检索方法，其特征在于，在步骤B之前，还包括E. 将所述文字及图片信息导出到可编辑、复制或引用的文本格式文件。
6、一种OCR图文识别检索系统，其特征在于，所述系统包括图文信息获取单元，用于获取待识别图文中的文字及图片信息； OCR数据库，用于存储所述文字信息；检索单元，用于按照关键词，在所述OCR数据库中进行全文检索。
7、如权利要求6所述的OCR图文识别检索系统，其特征在于，所述文字信息获取单元包括图文获取子单元，用于获取待识别图文；版面分析子单元，用于对所述图文进行版面分析；图文识别子单元，用于对所述图文进行OCR识别，获取所述图文中的文字及图片信息。
8、如权利要求7所述的OCR图文识别检索系统，其特征在于，所述图文获取子单元为具备拍摄或扫描功能的设备。
9、如权利要求8所述的OCR图文识别检索系统，其特征在于，所述图文获取子单元为扫描仪、数码相机、一体化机或拍照手机。
10、如权利要求6所述的OCR图文识别检索系统，其特征在于,所述系统还包括校对单元，用于对所述文字信息进行横向校对和纵向校对。
全文摘要
本发明公开了一种利用web方式进行OCR图文识别检索方法，所述方法包括以下步骤获取待识别图文中的文字及图片信息；将所述文字及图片信息存储在OCR数据库中；按照关键词，在所述OCR数据库中进行全文检索。本发明还公开了一种OCR图文识别检索系统，所述系统包括图文信息获取单元、OCR数据库和检索单元。本发明利用OCR图文识别技术，将其高效识别，导出可编辑的文本格式，再利用全文检索技术，通过输入嵌入在图片资料里的文字，即可方便高效地检索出所需要的信息资源。
文档编号G06F17/30GK101464903SQ20091007615
公开日2009年6月24日申请日期2009年1月9日优先权日2009年1月9日
发明者辉凌, 黄惠良申请人:江阴明伦科技有限公司

文档序号 : 【 6483577 】

技术研发人员：黄惠良,凌辉
技术所有人：江阴明伦科技有限公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

黄惠良丨凌辉丨江阴明伦科技有限公司

一种农产品追溯码的编码方法文件识别方法及装置的制作方法