问题描述
- Linux下C++实现解析word文档(.docx即可)
-
Linux下C++实现解析word文档(.docx即可)我的思路是先把docx解压缩,然后取得那个有内容的xml文件,对xml进行解析
但是输出的内容格式又很难控制与之前一样了,还有表格也完全没办法弄!
各位大神有什么好办法吗??或者推荐下直接解析docx的库
解决方案
楼上说的对 要做这个工作确实工作量是很大的,但是你如果只是简单操作的话倒也可以借助几个开源库尝试一下;
docx格式的文件本质上是一个ZIP文件。将一个docx文件的后缀改为ZIP后是可以用解压工具打开或是解压的。事实上,Word2007的基本文件就是ZIP格式的,他可以算作是docx文件的容器。(摘自百度百科) 所以你可以使用zlib库解压docx文件,示例: http://blog.csdn.net/mfcing/article/details/8021602
之后无非就是解析里面的XML文件啦,当然在解析的时候,你是需要知道docx的规范的,否则也是没办法解析出正确的数据,解析XML可以借助与TinyXML等开源的XML解析库。
不过这种格式和数据解析问题是有很多问题的,真正做一下你就知道为什么说这是工作量非常大的一个工作啦
解决方案二:
这个从头做,工作量有点夸张。不是一般的。
可以参考开源的open?office,libreoffice,参考它们是如何处理office文件的。
时间: 2024-08-29 14:48:10