💡TextIn ParseX重要版本更新内容速读: - 新增公式解析参数formula_level,支持 LaTeX / Text 灵活切换; - 表格解析优化单元格内换行输出; - 导出excel时,图片链接放在单元格内; - 新增电子档pdf去印章功能。 近期,为深度适配教育、金融、医疗、企业办公等场景需求,TextIn ParseX发布一系列功能升级,提升文档处理...
TextIn ParseX通用文档解析作为一款适配多样化场景的PDF解析工具,在基础识别能力以上,还提供了便捷、完善的参数配置功能,便于用户根据自身需求调整,获得所需输出结果。在TextIn技术社群,我们的产品团队也经常接到关于参数调配的提问与建议,因此,在本期指南中,我们将介绍常用参数的作用及使用方法,前端界面中参数面板的位置...
当启用该参数时,文档解析工具会构建一个文档的层级结构树,通常用于表示文档的逻辑结构,例如标题、段落、表格等元素的层级关系,帮助更好地理解文档的逻辑结构,便于后续的文档处理和分析。 TextIn ParseX文档树引擎算法逻辑示意图 catalog details 参数用于控制是否在解析文档时提取和输出文档的目录结构信息,当为1或true时...
TextIn ParseX通用文档解析是一款大模型友好的解析工具,支持将pdf文档、jpg、img图像等文件快速转换为markdown格式,支持各类表格、公式解析,帮助大语言模型的数据清洗和文档问答任务。 产品特点 支持多种扫描内容:能良好处理各类图片与扫描文档,包括手机照片、截屏等内容。
此外,TextIn最新推出的图表识别功能正在内测中,它可以可以智能解析图表属性Chart,并以Excel格式精准输出,支持饼图、折线图、柱状图、雷达图、散点图等多种图表类型,帮助大模型深度理解图表的结构、趋势和数据逻辑,让数据分析更高效。 柱状图解析案例: 便捷的工具使用方式 ...
TextIn ParseX通用文档解析是一款大模型友好的解析工具,支持将pdf文档、jpg、img图像等文件快速转换为markdown格式,支持各类表格、公式解析,帮助大语言模型的数据清洗和文档问答任务。 产品特点 支持多种扫描内容:能良好处理各类图片与扫描文档,包括手机照片、截屏等内容。
SDK工具Java版地址:https://github.com/intsig-textin/parsex-sdk/tree/main/java SDK功能介绍 这是一套标准的多平台支持的Java SDK,帮助开发者解析pdf_to_markdownRestful API返回结果,获取对应的版面元素的数据结构。开发者只需下载jar包,并导入到自己的项目中即可使用。SDK使用方法 在项目中引入jar包后即可...
TextIn ParseX通用文档解析是一款大模型友好的解析工具,支持将pdf文档、jpg、img图像等文件快速转换为markdown格式,支持各类表格、公式解析,帮助大语言模型的数据清洗和文档问答任务。 产品特点支持多种扫描内容:能良好处理各类图片与扫描文档,包括手机照片、截屏等内容。支持多种语言:支持简体中文/繁体中文/英文/数字/西...
TextIn ParseX通用文档解析是一款大模型友好的解析工具,支持将pdf文档、jpg、img图像等文件快速转换为markdown格式,支持各类表格、公式解析,帮助大语言模型的数据清洗和文档问答任务。此前,为了让用户获得文档解析引擎返回的丰富版面元素,我们推出了一系列的sdk函数(+link),包括目录树、公式、表格、图片、全文markdown等...
TextIn ParseX文档树引擎算法逻辑示意图 catalog details 参数用于控制是否在解析文档时提取和输出文档的目录结构信息,当为1或true时,可以返回 catalog details,近期新增sub type用以区分文本、图像标题、表格标题、文本标题。 参数协同工作效果展示 5. 获取JSON结果(markdown_details) markdown details 参数用于控制是否...