关于提取htm表格中数据的问题

问题描述

尝试过转成dom文件去操作,但是源htm不标准,不能转成dom文件。然后文本方式+正则处理,处理完发现数据和表项混在一起了,没办法分开了,于是各种杯具就产生了。希望有高手指点一下部分源htm代码<TABLEwidth="100%"><TBODY><TRvAlign=top><TDwidth="50%"><TABLEclass=shadecellSpacing=0width="90%"border=1><TBODY><TR><TDclass=unl><STRONG>发往:</STRONG></TD></TR><TR><TDclass=unl>Various</TD></TR><TR></TR><TR><TDclass=unl><INPUTtype=hiddenvalue=~~~name=addr3></TD></TR><TR><TDclass=unl></TD><INPUTtype=hiddenname=addr2></TR><TR><TDclass=unl></TD></TR></TBODY></TABLE><BR><TABLEclass=shadecellSpacing=0width="90%"border=1><TBODY><TR><TDclass=unl><STRONG>帐单送往:</STRONG></TD></TR><TR><TDclass=unl>邮政编码:518040</TD></TR><TR><TDclass=unl>深圳市福田区农林路69号深国投广场</TD></TR><TR><TDclass=unl>二号楼2-5层及三号楼1-12层</TD></TR><TR><TDclass=unl>沃尔玛(中国)投资有限公司</TD></TR><TR><TDclass=unl>财</TD></TR><TR><TDclass=unl><STRONG>税号:</STRONG> 440301710936858</TD></TR></TBODY></TABLE><BR><BR><BR><BR><TABLEclass=shadecellSpacing=0width="100%"border=1><TBODY><TR><TDclass=unl><STRONG>供应商名:</STRONG></TD><TDclass=unl>东莞市远梦家用纺织品有限公司<INPUTtype=hiddenvalue=东莞市远梦家用纺织品有限公司name=supname></TD></TR><TR><TDclass=unl>供应商号:</TD><TDclass=unl><INPUTtype=hiddenvalue=717782226name=supnbr>717782226</TD></TR></TBODY></TABLE></TD><TD><TABLEwidth="100%"valign="top"><TBODY><TRvAlign=top><TD><TABLEclass=shadecellSpacing=0width="90%"align=rightborder=1valign="top"><TBODY><TRvAlign=top><TDclass=unl><STRONG>订单号:</STRONG></TD><TDclass=unl> 2300040593</TD></TR><INPUTtype=hiddenvalue=2300040593name=ponbr><INPUTtype=hiddenvalue=SAname=potype><INPUTtype=hiddenname=relnbr><TR><TDclass=unl>订单日期:</TD><TDclass=unl> 11/2/2010<INPUTtype=hiddenvalue=20101102name=podate></TD></TR><TR><TDclass=unl>发货日期:</TD><TDclass=unl> 11/3/2010</TD></TR><TR><TDclass=unl>取消日期:</TD><TDclass=unl> 11/10/2010</TD></TR></TBODY></TABLE></TD></TR><TR><TDcolSpan=2></TD></TR><TR><TDcolSpan=2><TABLEclass=shadecellSpacing=0width="80%"align=leftborder=1valign="bottom"><TBODY><TR><TDclass=unllwidth="30%">订货类型:</TD><TDclass=unll> 0057<INPUTtype=hiddenvalue=0057name=ordtyp></TD></TR><TR><TDclass=unll>部门:</TD><TDclass=unl> 00022<INPUTtype=hiddenvalue=00022name=deptnbr></TD></TR><TR><TDclass=unll>主题#:</TD><TDclass=unll> TAB</TD></TR><TR><TDclass=unll>付款条件: </TD><TDclass=unll>NET60<INPUTtype=hiddenvalue=05name=ITD01><INPUTtype=hiddenvalue=15name=ITD02><INPUTtype=hiddenname=ITD03><INPUTtype=hiddenname=ITD05><INPUTtype=hiddenvalue=60name=terms></TD></TR><TR><TDclass=unll>交货点</TD><TDclass=unll> 制表人(售方)<INPUTtype=hiddenvalue=PPname=fob></TD></TR><TR><TDclass=unll>承运者</TD><TDclass=unll> VENDORROUTE<INPUTtype=hiddenvalue="VENDORROUTE"name=carrier></TD></TR><TR><TDclass=unll>启运地</TD><TDclass=unll> SHENZHENCN</TD></TR></TBODY></TABLE></TD></TR></TBODY></TABLE></TD></TR></TBODY></TABLE>

解决方案

解决方案二:
该回复于2011-01-05 14:19:40被版主删除
解决方案三:
提取HTML标签内容就行了jsoup或者htmlparse你去搜下

时间: 2024-10-25 00:57:24

关于提取htm表格中数据的问题的相关文章

动画图解:Word表格中数据的计算

下面这个Gif动画教程系列介绍Word中的表格操作,今天我们用动画的形式介绍在Word表格中数据的计算方法. Word表格中的数据可以利用公式域进行自动计算. 方法一:利用"表格"→"公式" 1.将插入点置于存放运算结果的单元格中,"表格"→"公式-",弹出"公式"对话框. 2.在"公式"框中可以修改或输入公式:在"粘贴函数"组合框可以选择所需函数,被选择的函数将自动

Word文档的表格中数据排序的方法

  Word文档的表格中数据排序的方法         1.在表格中单击将插入点光标放置到任意单元格中,然后在"表格工具-布局"选项卡中单击"数据"组中的"排序"按钮,如图1所示. 图1 单击"排序"按钮 2.打开"排序"对话框,在"主要关键字"下拉列表中选择排序的主要关键字,在"类型"下拉列表框中选择排序标准,然后单击其后的"降序"单选按钮选择以

Word文档中对表格中数据进行计算的方法

  Word文档中对表格中数据进行计算的方法          1.在表格的最后一个单元格中单击放置插入点光标,然后在"表格工具-布局"选项卡中单击"数据"组中的"公式"按钮,如图1所示. 图1 单击"公式"按钮 2.打开"公式"对话框,在"编号格式"下拉列表中选择公式结果的显示格式,在"粘贴函数"下拉列表中选择需要使用的函数,如图2所示.此时公式将被粘贴到"

Excel表格中数据的增减怎么用箭头标注

  Excel表格中数据的增减怎么用箭头标注          两幅图,是一组销售数据,C列是每个月的销售额与销售平均值的比较情况: 图一 图二 图二明显要比图一的效果更直观吧? 其实实现这样的效果并不难. 选中C2:C10单元格区域,按Ctrl+1,弹出[设置单元格格式]对话框. 在[数字]选项卡下单击[自定义],在格式框中输入以下格式代码: [蓝色]↑0.0%;[红色]↓0.0%;0.0% OK,完成了,就这么简单. 说说格式代码的意思: [蓝色]↑0.0%;[红色]↓0.0%;0.0% 格

js脚本-ASP.NET中加入JS 改变表格中数据

问题描述 ASP.NET中加入JS 改变表格中数据 <%@ Page Language=""C#"" AutoEventWireup=""true"" CodeBehind=""index.aspx.cs"" Inherits=""webgf.GF"" %> <!DOCTYPE html PUBLIC ""-/

qt combox 表格;表格中数据可输入

问题描述 qt combox 表格:表格中数据可输入 表格中含有COMBOX,如何使QT中的combox选项中的值被选中后该行上其他位置处的数值自动被填进表格内??而且要求选中后该行上的数据是可改变输入的.求详细代码 解决方案 可以使用model/view框架,修改数据用delegate 都有现成的类,没有合适的可以继承他现有的再自己实现. 模型类QAbstractItemModel: 链表模型QAbstractListModel 表格模型QAbstractTableModel 标准模型QAbs

c++ builder-DBGrid表格中数据导入到txt中

问题描述 DBGrid表格中数据导入到txt中 怎样将DBGrid表格中数据导入到一个txt中,最好给个例子,感谢!

c++-为什么我在用snmp++库的get_bulk函数获取表格中数据时时只会得到一个结果

问题描述 为什么我在用snmp++库的get_bulk函数获取表格中数据时时只会得到一个结果 我正在用SNMP++库中的get_bulk函数获取MIB为1.3.6.1.2.1.4.21.1.1的值,理论上应该得到的值为:1.3.6.1.2.1.4.21.1.1.0.0.0.0 : 0.0.0.01.3.6.1.2.1.4.21.1.1.127.0.0.0 : 127.0.0.01.3.6.1.2.1.4.21.1.1.127.0.0.1 : 127.0.0.1....但是实际我却只得到了1.3.

如何使Word表格中数据按小数点对齐

每次我们编辑数字时,看见这些没有对齐的数字时,就会感到很郁闷.为了方便数字大小的直观对比,要是它们能够按小数点对齐该多好啊!现在不用怕了,看看下面的操作,你就再也不会感到郁闷了. 在Word软件中,我们只要在"制表位"的设置下,就能将Word表格中的数据按小数点对齐. 1.选中整个表格列.单击"开始"选项卡,然后,单击"段落"组的对话框启动器. 2.在"段落"对话框中,单击"制表位"按钮.在"制表