wuhan university

项 目

RESEARCH PROJECT

PDF文档信息抽取

6

2017

PDF文档信息抽取

PDF 文件格式主要用于显示文件内容,本身缺乏语义信息,如果不将其中的提取出来,就不能实现基于语义的查询。本项目旨在开发一款pdf文档信息抽取工具,对输入标准的pdf文档,按照文章阅读顺序输出文字、公式、表格和图片。