想写一个爬虫程序,用什么框架比较好

问题描述

RT 想用java写个爬虫 主要想爬取微博的数据 求指教

解决方案

1、页面请求使用httpclient比较好,如果涉及多线程最好使用4.x版本2、页面解析,推荐使用jsoup,功能比较强大另外,针对网络爬虫上面两点是基本的,但是微博数据是需要登录才能获取的,所以需要考虑模拟登录
解决方案二:
这个基本上只能自己做的玩玩,大规模的访问任何微博应该都有ip或者次数限制的,用httpclient+htmlparser就ok了
解决方案三:
apache natch
解决方案四:
用httppaser好像有这方面的功能吧

时间: 2024-12-07 01:30:18

想写一个爬虫程序,用什么框架比较好的相关文章

vc 如何创建服务-VC 开机自动启动。不用写注册表的方法。想写一个服务来启动这个程序。

问题描述 VC 开机自动启动.不用写注册表的方法.想写一个服务来启动这个程序. 有个EXE程序想要它开机自动启动.我不想用写注册表的方法启动.看能不能够写一个服务来启动这个程序.如果可以麻烦大家能够提供源码.谢谢!!!!! 解决方案 创建服务,CreateService()

电话拨号-我想写一个可以控制拨打电话时间的程序

问题描述 我想写一个可以控制拨打电话时间的程序 我想写一个可以控制拨打电话时间的程序,小白一个,正在看第一行代码,求大家帮助,谢谢 解决方案 这个直接调用Android代码就好,你看的这本书上就有介绍呀

自己想写一个轻量级的框架 请问大神thinkphp中的common模块是怎样实现的

问题描述 自己想写一个轻量级的框架 请问大神thinkphp中的common模块是怎样实现的 就是我现在有很多的函数 怎样能像放在thinkphp中的common中的function和config中自动调用 求实现方法和原理 最好有代码 在此谢谢了

我想写一个监控程序,如有一个程序a我让它一直开着,,写个程序b,当a出现异常时(有弹出框)把a重启,怎么实现

问题描述 我想写一个监控程序,如有一个程序a我让它一直开着,,写个程序b,当a出现异常时(有弹出框)把a重启,怎么实现大家帮帮忙 解决方案 解决方案二:大家给个建议行吗,,,谢谢了解决方案三:被控端时刻监听服务端的指令请求.控制端监听被控端的异常请求.如果被控端异常那么发送指令给控制端.由控制端决定是否让他重起.解决方案四:被控端不是自己写的,这个东西很棘手,,我在google上搜了老长时间都没有点儿方法解决方案五:a程序出现异常的时候,把异常代码存储到某个文件里面,b程序定时读取这个文件,发现

零基础写python爬虫之使用Scrapy框架编写爬虫_python

网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据.虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间.Scrapy是一个使用Python编写的,轻量级的,简单轻巧,并且使用起来非常的方便.使用Scrapy可以很方便的完成网上数据的采集工作,它为我们完成了大量的工作,而不需要自己费大力气去开发. 首先先要回答一个问题. 问:把网站装进爬虫里,总共分几步? 答案很简单,四步: 新建项目 (Project):新建一个新的爬虫项目 明确目标(Item

想做一个vc程序,后台监控指定文件夹中是否存在数据库文件,如果有则将文件内容上传到服务器数据库中。

问题描述 想做一个vc程序,后台监控指定文件夹中是否存在数据库文件,如果有则将文件内容上传到服务器数据库中. 有说可以写服务来后台监控的,但是我不太明白原理,服务是怎么实现后台监控, vc倒是可以直接生成一个服务,但是不清楚原理,完全不知道应该从哪下手. 希望有高手给解答一下. 解决方案 参考:http://blog.sina.com.cn/s/blog_a6fb6cc901017us1.html

利用MFC写一个Tcp程序,基于事件选择机制建立一个回射服务器(直接把收到的客户端消息发回给客户端)

问题描述 利用MFC写一个Tcp程序,基于事件选择机制建立一个回射服务器(直接把收到的客户端消息发回给客户端) 刚开始学习window套接字编程,很多东西还不大熟,想请高手帮忙写出这个程序作为我学习相关理论的模板 解决方案 http://pan.baidu.com/s/1hs2hKEg分享给你这个视频教程 跟着视频一步一步做可以做一个局域网聊天室 同时学习mfc编程与socket编程

想写一个可执行的脚本,读取文件的字节数

问题描述 想写一个可执行的脚本,读取文件的字节数 我想做一个可执行小程序,读取一个文件的字节值,我该怎么写啊 解决方案 如此此shell脚本在/home/mingji/test.sh中 想读取/home/mingji/1.txt中的文件 test.sh如下 #!/bin/sh fn=/home/mingji/1.txt cat $fn | while read LINE do echo $LINE done 再/home/mingji/test.sh 解决方案二: 如此此shell脚本在/hom

脚本交互-求助!我想写一个shell脚本 要求可以自动输入密码

问题描述 求助!我想写一个shell脚本 要求可以自动输入密码 困扰很多天的一个问题. 第一句为./ibe combine xxxxx@qq.com key 执行完这一句之后 会提示输入两个密码pw1和pw2 ,能不能写个脚本,将"1111"和"2222"分别在提示输入后自动输入? 谢谢! 我现在已经写出了输入第一个密码的方法 但是第二个密码 2222 不知道应当怎么写才能输入了 请指点! #! /bin/bash echo Content-type: text/h