问题描述
目前在做一个简单的网络爬虫,但是在URL过滤这里遇到点麻烦希望大家帮我解决一下,谢谢了!1.先从网页的源码中,把所有herf后面的URL地址提取出来,必须是以http开头的地址2.在提取出来的URL地址中,保留满足这个正则表达式(http://companyadc.51job.com/companyads/2d{3}/w{2,6}/w*d{4}_d{4}/index.htm)的URL,其他的删除。请问这2个步骤用C#分别应该怎么实现啊?谢谢了!
解决方案
解决方案二:
你的问题解决了没?
时间: 2024-09-15 03:58:48