问题描述
最近在做一个网站,做完以后,客户提出要求,要将原有网站中的数据与另一个网站对接,即要把本网站中的数据导出为XML文件,XML格式为另一个网站提供,但是在导出数据的时候遇到一些问题,希望遇到过一样问题的兄弟指点迷津,谢谢.下面贴出问题XML格式为<?xml version="1.0" encoding="utf-8"?><elements> <element id="111"> <title minOccurce="1" maxOccurce="1"><![CDATA[今天天气不错呀]]></title><subject minOccurce="1" maxOccurce="1"><![CDATA[这里放的是栏目类别]]></subject><attributes descripton="属性区" minOccurce="1" maxOccurce="1" > <attr description="索引号" name="idxid" minOccurce="1" maxOccurce="1"><![CDATA[0999999999/2008-0001]]></attr><attr description="内容概述" name="description"><![天气好了就去运动呗]]></attr><attr description="生成日期" name="pubdate" ><![CDATA[2008-01-09]]></attr><attr description="生效日期" name="efectdat"><![CDATA[2008-03-01]]></attr><attr description="废止日期" name="abolidat"></attr><attr description="相关信息" name="rtitle"></attr><attr description="发布者" name="namofpub"><![CDATA[我发的]]></attr><attr description="发布者性别" name="pubcode "></attr>.................中间的省略</attributes><content description="正文区"><![CDATA[[color=red]重点是这里哦,我的问题在这里~~~~呵呵[/color]]]></content><images description="图片区"> <appendix filename="这里的图片是正文中出现的哦" dispname="图片1"/> <appendix filename="这里的图片是正文中出现的哦" dispname="图片2"/> </images><appendixes description="附件区"/><appendix filename="这里的附件是正文中出现的哦" dispname="附件1"/><appendix filename="这里的附件是正文中出现的哦" dispname="附件2"/></appendixes></element></elements>在导出数据的时候,发现对方提供的XML格式最后有一个图片区和附件区,即把正文中出现图片和附件取出来,然后放在导出XML文件的同目录下,正文区是由飞鱼编辑器录入的内容,所以图片格式会为<IMG src="http://127.0.0.1:8080/UploadFile/2008/6/19/20080619031603546.JPG">附件格式会为<IMG src="http://127.0.0.1:8080/sysimage/file/doc.gif" border=0><A href="http://127.0.0.1:8080/UploadFile/2008/6/19//20080619031716890.doc" target=_blank>附件1</A>附件前面的那个图片是个小图片,为word图标或者excel的图标.我的问题是,我在获得这条记录对象的时候,我怎么样才能判断这条记录的文本字段中有几个图片或者附件,并取出来添加到下面的图片区和附件区.希望我已经把我的问题说的清楚了,也希望能得到大家的回答,谢谢~~~~~
解决方案
使用HTMLParse解析你的正文html,统计img标签数量。