问题描述
- 网页抓取时,如何判断一个页面是导航页面,还是内容页面
-
在做网页抓取的时候,我想先判断这个网页是导航页面(目录页面),还是内容页面例如 http://sky.news.sina.com.cn/ 这是一个导航页面
http://sky.news.sina.com.cn/2013-10-10/094444474.html 这是一个正文页面
可以通过url进行判断我知道的,能不能通过分析页面源代码进行判断啊,比如说正文字数,主要区域链接个数等等
谢谢大家,请给点思路
时间: 2024-11-01 13:12:03