问题描述
怎样用Java实现网站数据采集??????????我自己写了一个,感觉有点问题,希望大家帮帮忙,比如采集table里面的td里面的内容,td里面又有divspan之类的,这样td里的内容就成为一条记录了,例:2010-03-2218:40:45由【山西晋中公司】发往【山西太原公司怎么把时间和记录的内容分开,谢谢,
解决方案
解决方案二:
两gezi:正则
解决方案三:
用正则式效率不高,听说可以用第三方的jar包读取页面中指定table里面td的内容?有吗
解决方案四:
HttpClient和htmlparser可以实现网页爬虫的功能。
解决方案五:
你为什么不把表单里面的内容封装成类呢,..........封装成类了之后,获取修改多简单啊
时间: 2024-10-03 20:01:03