c++-Linux下C++实现解析word文档(.docx即可)

问题描述

Linux下C++实现解析word文档(.docx即可)

Linux下C++实现解析word文档(.docx即可)

我的思路是先把docx解压缩,然后取得那个有内容的xml文件,对xml进行解析

但是输出的内容格式又很难控制与之前一样了,还有表格也完全没办法弄!

各位大神有什么好办法吗??或者推荐下直接解析docx的库

解决方案

楼上说的对 要做这个工作确实工作量是很大的,但是你如果只是简单操作的话倒也可以借助几个开源库尝试一下;

docx格式的文件本质上是一个ZIP文件。将一个docx文件的后缀改为ZIP后是可以用解压工具打开或是解压的。事实上,Word2007的基本文件就是ZIP格式的,他可以算作是docx文件的容器。(摘自百度百科) 所以你可以使用zlib库解压docx文件,示例: http://blog.csdn.net/mfcing/article/details/8021602

之后无非就是解析里面的XML文件啦,当然在解析的时候,你是需要知道docx的规范的,否则也是没办法解析出正确的数据,解析XML可以借助与TinyXML等开源的XML解析库。

不过这种格式和数据解析问题是有很多问题的,真正做一下你就知道为什么说这是工作量非常大的一个工作啦

解决方案二:

这个从头做,工作量有点夸张。不是一般的。
可以参考开源的open?office,libreoffice,参考它们是如何处理office文件的。

时间: 2024-08-29 14:48:10

c++-Linux下C++实现解析word文档(.docx即可)的相关文章

java 解析 word-Java如何解析word文档到富文本编辑器中?

问题描述 Java如何解析word文档到富文本编辑器中? 现在有一个需求,使用Java将word解析到富文本编辑器内,要求内容和格式都不发生变化. 是不是先要将word文档转换为html文档再做处理?如果是的话,Java有什么好方法可以将word转换为html,服务器为Linux,所以Jacob不太好使.

解析word文档除了用poi还可以用什么解析文档的内容

问题描述 解析word文档除了用poi还可以用什么解析文档的内容 我最近在研究word文档的解析,除了用poi的方式解析,还有什么方式可以解析word的文档的 解决方案 还可以用vba.java可以借助vbs js调用vba http://ldbjakyo.iteye.com/blog/1698820 解决方案二: java解析word文档

用xml解析word文档,怎样解析,求思路,求代码,以及文档中图片和公式的解析

问题描述 用xml解析word文档,怎样解析,求思路,求代码,以及文档中图片和公式的解析 用xml解析word文档,怎样解析,求思路,求代码,以及文档中图片和公式的解析,请问哪位大神做过??? 解决方案 需求是什么呢?用什么语言,你说的xml解析word文档是什么意思呢? java里面对word文档的操作有POI工具包可以使用.

Win7 64位旗舰版系统下打开较大Word文档时反应很慢如何解决

  原因分析: word文档打开慢其实这是由于Word的"拼写语法检查"功能引起的,特别是Word文档很大时,"拼写语法检查"功能会自动从头到尾进行一次语法检查,所以时间就需要比较多,从而出现了程序"反应迟钝"的现象. 解决方法: 1.首先打开Word文档,点击菜单栏"文件"--"选项",以打开选项窗口; 2.在打开的选项窗口中,切换到"校对"选项卡,在右侧窗口中找到并禁用"键

win7系统下记事本如何像Word文档一样更换字体

  1.首先,在桌面或资料管理器空白位置单击鼠标右键,在弹出的菜单中找到[新建],在新建菜单中找到并点击[文本文档]. 2.成功新建一个文本文档后,双击打开它. 3.在弹出的文本文档窗口中上方菜单栏中找到并点击[格式]-[字体]子菜单. 4.在弹出的字体小窗口中选择你需要更换的字体,个人比较推荐:Consolas,此字体是等距字体(即数字和字母的宽度是相同的). 5.如果喜欢怀旧的用户可以选择:Fixedsys 字体,此字体是winXP和win2003中记事本的默认字体.

vbs 解析html文档的方法(htmlfile)_vbs

关于VBS采集,网上流行比较多的方法都是正则,其实 htmlfile 可以解析 html 代码,但如果 designMode 没开启的话,有时候会包安全提示信息. 但是开启 designMode (@预言家晚报 分享的方法) 的话,所有js都不会被执行,只是干干净净的dom文档,所以在逼不得已的情况下开启 designMode 一般情况保持默认即可. Set html = CreateObject("htmlfile") Set http = CreateObject("Ms

JPG图片与Word文档之间的转换

一.将Word转换成JPG图片 步骤一.打开Word文档,选中需要转换成图片的文字,然后复制该文字,当然复制有很多方式,直接按快捷键[Ctrl+C]或者点击鼠标右键选中下拉菜单中的[复制]等一些方法.如图所示: 电脑教程 步骤二.在电脑左下角依次点击[开始]→[程序]→[附件]→[画图].如图所示: 步骤三.打开[画图]之后,选择菜单栏中的[编辑]下拉菜单中的粘贴.如图所示: 步骤四.打开菜单中的[保存]或者[另存为],将文件保存类型改为[.JPG]格式即可.如图所示: 二.将JPG转换成Wor

word文档-java 获取 word 指定段落所在页码

问题描述 java 获取 word 指定段落所在页码 有word文档(docx),查找某个段落的所在页的页码,用于生成word目录: 或者有比较好的方法可以生成word目录

打开word文档到richtextbox

打开word文档到richtextbox: private void textBox1_MouseClick(object sender, MouseEventArgs e) { OpenFileDialog ofd = new OpenFileDialog(); ofd.InitialDirectory = "F:\\"; ofd.Filter = "Word文档(*.docx)|*.docx"; ofd.ShowDialog(); ApplicationClas