问题描述
尝试过转成dom文件去操作,但是源htm不标准,不能转成dom文件。然后文本方式+正则处理,处理完发现数据和表项混在一起了,没办法分开了,于是各种杯具就产生了。希望有高手指点一下部分源htm代码<TABLEwidth="100%"><TBODY><TRvAlign=top><TDwidth="50%"><TABLEclass=shadecellSpacing=0width="90%"border=1><TBODY><TR><TDclass=unl><STRONG>发往:</STRONG></TD></TR><TR><TDclass=unl>Various</TD></TR><TR></TR><TR><TDclass=unl><INPUTtype=hiddenvalue=~~~name=addr3></TD></TR><TR><TDclass=unl></TD><INPUTtype=hiddenname=addr2></TR><TR><TDclass=unl></TD></TR></TBODY></TABLE><BR><TABLEclass=shadecellSpacing=0width="90%"border=1><TBODY><TR><TDclass=unl><STRONG>帐单送往:</STRONG></TD></TR><TR><TDclass=unl>邮政编码:518040</TD></TR><TR><TDclass=unl>深圳市福田区农林路69号深国投广场</TD></TR><TR><TDclass=unl>二号楼2-5层及三号楼1-12层</TD></TR><TR><TDclass=unl>沃尔玛(中国)投资有限公司</TD></TR><TR><TDclass=unl>财</TD></TR><TR><TDclass=unl><STRONG>税号:</STRONG> 440301710936858</TD></TR></TBODY></TABLE><BR><BR><BR><BR><TABLEclass=shadecellSpacing=0width="100%"border=1><TBODY><TR><TDclass=unl><STRONG>供应商名:</STRONG></TD><TDclass=unl>东莞市远梦家用纺织品有限公司<INPUTtype=hiddenvalue=东莞市远梦家用纺织品有限公司name=supname></TD></TR><TR><TDclass=unl>供应商号:</TD><TDclass=unl><INPUTtype=hiddenvalue=717782226name=supnbr>717782226</TD></TR></TBODY></TABLE></TD><TD><TABLEwidth="100%"valign="top"><TBODY><TRvAlign=top><TD><TABLEclass=shadecellSpacing=0width="90%"align=rightborder=1valign="top"><TBODY><TRvAlign=top><TDclass=unl><STRONG>订单号:</STRONG></TD><TDclass=unl> 2300040593</TD></TR><INPUTtype=hiddenvalue=2300040593name=ponbr><INPUTtype=hiddenvalue=SAname=potype><INPUTtype=hiddenname=relnbr><TR><TDclass=unl>订单日期:</TD><TDclass=unl> 11/2/2010<INPUTtype=hiddenvalue=20101102name=podate></TD></TR><TR><TDclass=unl>发货日期:</TD><TDclass=unl> 11/3/2010</TD></TR><TR><TDclass=unl>取消日期:</TD><TDclass=unl> 11/10/2010</TD></TR></TBODY></TABLE></TD></TR><TR><TDcolSpan=2></TD></TR><TR><TDcolSpan=2><TABLEclass=shadecellSpacing=0width="80%"align=leftborder=1valign="bottom"><TBODY><TR><TDclass=unllwidth="30%">订货类型:</TD><TDclass=unll> 0057<INPUTtype=hiddenvalue=0057name=ordtyp></TD></TR><TR><TDclass=unll>部门:</TD><TDclass=unl> 00022<INPUTtype=hiddenvalue=00022name=deptnbr></TD></TR><TR><TDclass=unll>主题#:</TD><TDclass=unll> TAB</TD></TR><TR><TDclass=unll>付款条件: </TD><TDclass=unll>NET60<INPUTtype=hiddenvalue=05name=ITD01><INPUTtype=hiddenvalue=15name=ITD02><INPUTtype=hiddenname=ITD03><INPUTtype=hiddenname=ITD05><INPUTtype=hiddenvalue=60name=terms></TD></TR><TR><TDclass=unll>交货点</TD><TDclass=unll> 制表人(售方)<INPUTtype=hiddenvalue=PPname=fob></TD></TR><TR><TDclass=unll>承运者</TD><TDclass=unll> VENDORROUTE<INPUTtype=hiddenvalue="VENDORROUTE"name=carrier></TD></TR><TR><TDclass=unll>启运地</TD><TDclass=unll> SHENZHENCN</TD></TR></TBODY></TABLE></TD></TR></TBODY></TABLE></TD></TR></TBODY></TABLE>
解决方案
解决方案二:
该回复于2011-01-05 14:19:40被版主删除
解决方案三:
提取HTML标签内容就行了jsoup或者htmlparse你去搜下