问题描述
- 关于java网络爬虫提取列表链接的问题
-
相关链接:http://weixin.sogou.com/weixin?query=AECOM&fr=sgsearch&type=2&ie=utf8&w=01019900&sut=2818&sst0=1441676689870&lkt=5%2C1441676687340%2C1441676688517
请指导一下,谢谢
解决方案
获取页面的源码,然后使用正则表达式提取出来连接
这两张图片,上面的是源代码里面的a标签链接,点击以后就是变成了下面的网页链接,两个连接没有任何共同点。
感觉像是重定向。正则提取链接做不到,我压根找不到最终的网页链接在哪能看到。。。。求指导,谢谢
解决方案三:
把提取出来的连接加上weixin.sogou.com,如:weixin.sogou.com/websearch/art.jsp?sg=sn77VhdTZLp6KR7N2pNgab1gWb0Js3O-NBmzXBQ3bD7JpeZeMWRyAd3JGUSddAg3bLj0UjnL7UjoK1vaMjEX3w7jRCp0fw_6kh6FucY-MWICz8eJR1JUskzMjrF1mKLm9oGXo7u9xf7LqsaZUK7G5A..&url=p0OVDH8R4SHyUySb8E88hkJm8GF_McJfBfynRTbN8wg3l9mjCd1CZakCBdwhJEfuIKUX_KcUige61BySCDv5WfwjqI9vhGJj_D89uvSrOeCUzqCJZBqKUsi2JqLZBumeRMvInPrGXAZYy-5x5In7jJFmExjqCxhpkyjFvwP6PuGcQ64lGQ2ZDMuqxplQrsbk
你试试
时间: 2024-08-01 08:10:21