Python网络爬虫 - 一个简单的爬虫例子

下面我们创建一个真正的爬虫例子

爬取我的博客园个人主页首页的推荐文章列表和地址

scrape_home_articles.py

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen("http://www.cnblogs.com/davidgu")
bsObj = BeautifulSoup(html, "html.parser")
for link in bsObj.find("div", {"id":"main_container"}).findAll("a", href=re.compile("^http://www.cnblogs.com/davidgu/p")):
    if 'href' in link.attrs and not('class' in link.attrs):
        print(link.string)
        print(link.attrs['href'])
        print("--------------------------------------------------------------")

运行结果：
[置顶]解决adb server端口被占用的问题
http://www.cnblogs.com/davidgu/p/4515236.html
--------------------------------------------------------------
[置顶]解决Eclipse下不自动拷贝apk到模拟器问题( The connection to adb is down, and a sever
http://www.cnblogs.com/davidgu/p/4390661.html
--------------------------------------------------------------
常用的正则表达式一览
http://www.cnblogs.com/davidgu/p/4831357.html
--------------------------------------------------------------
C++ 11 - STL - 函数对象(Function Object) (上)
http://www.cnblogs.com/davidgu/p/4829097.html
--------------------------------------------------------------

...

时间： 2024-10-25 05:19:23

Python网络爬虫 - 一个简单的爬虫例子的相关文章

Java网络爬虫 - 一个简单的爬虫例子

WikiScraper.java package master.haku.scrape; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import java.net.*; import java.io.*; public class WikiScraper { public static void main(String[] args) { scrapeTopic("/wiki/Python"); } public

Python网络编程 - 一个简单的客户端Get请求程序

import socket target_host = "www.baidu.com" target_port = 80 # create a socket object client = socket.socket(socket.AF_INET, socket.SOCK_STREAM) # connect the client client.connect((target_host,target_port)) # send some data data = "GET / H

c c++-求用c编写的一个简单的爬虫程序，高手赐教，不胜感激

问题描述求用c编写的一个简单的爬虫程序,高手赐教,不胜感激本人是初学者,要编写一爬虫程序,抓取60多万个网页上的信息,实在是无从下手,请高手给一个能看得懂的简单的爬虫程序学习用,多谢解决方案我也要写一个C爬虫,不过遇到了一些问题,比如58这样的网站,用getaddrinfo返回的ip无法连接,已经耽误了我好几天了,别的问题到还没遇到

Python写的一个简单监控系统

这篇文章主要介绍了Python写的一个简单监控系统,本文讲解了详细的编码步骤,并给给出相应的实现代码,需要的朋友可以参考下市面上有很多开源的监控系统:Cacti.nagios.zabbix.感觉都不符合我的需求,为什么不自己做一个呢用Python两个小时徒手撸了一个简易的监控系统,给大家分享一下,希望能对大家有所启发首先数据库建表建立一个数据库"falcon",建表语句如下: ? 1 2 3 4 5 6 7 8 9 10 11 CREATE TABLE `stat` ( `

jquery插件-jquery.bootgrid插件如何实现数据的分页显示，求一个简单地小例子~~

问题描述 jquery.bootgrid插件如何实现数据的分页显示,求一个简单地小例子~~ 感觉它是一个非常不错的数据分页显示框架,希望能够学会,可是在网上没有查到类似的资料,大家有用过的吗? 解决方案 http://www.jquery-bootgrid.com/Examples 解决方案二: 这个我看过了,但是代码不全,有部分不知道怎么写

入侵检测-关于一个简单的堆栈例子

问题描述关于一个简单的堆栈例子我在读一本入侵检测技术的书,看到一个简单的堆栈溢出示例,看不懂,请各位大神解释一下是什么意思解决方案简单说就是通过程序编写的不严格,使局部变量溢出从而覆盖掉堆栈上的返回值.调用一个函数时,以__stdcall为例,先把参数入栈,然后时返回地址入栈, CPU执行现场跳转到函数中 ,然后是ebp寄存器入栈,随后局部变量和寄存器入栈,不同的编译器可能会有所差别,比如微软CL编译器在处理Debug和Release时是有一些区别的,但大致是相同的,溢出攻击,简单说就是

方法-python继承的一个简单问题

问题描述 python继承的一个简单问题 python为什么我继承了Threading的Thread方法, class myThread(threading.Thread): def __init__(self,threadname): threading.Thread.__init__(self,name=threadname) 这就是问题为什么还要调用初始化一下?. 初始化,能达到什么效果,就是这句话有什么用途?或者我不初始化有什么差别? java里面不需要这样呀?python这样写是

轻松创建nodejs服务器（1）：一个简单nodejs服务器例子_node.js

我们先来实现一个简单的例子,hello world. 似乎每种语言教程的第一节都会讲这个,我们也不例外. 首先我们先创建一个项目目录,目录可自己定义,本案例的目录为 e:/nodetest/. 由于我们要搭建的是服务器,所以我把第一个文件命名为server.js. 在server.js里面输入以下代码: 复制代码代码如下: var http = require("http"); http.createServer(function(request, response) {

仅用50行Python代码实现一个简单的代理服务器_python

之前遇到一个场景是这样的: 我在自己的电脑上需要用mongodb图形客户端,但是mongodb的服务器地址没有对外网开放,只能通过先登录主机A,然后再从A连接mongodb服务器B. 本来想通过ssh端口转发的,但是我没有从机器A连接ssh到B的权限.于是就自己用python写一个. 原理很简单. 1.开一个socket server监听连接请求 2.每接受一个客户端的连接请求,就往要转发的地址建一条连接请求.即client->proxy->forward.proxy既是socket服务端

猜你喜欢

Tomcat7+Spring3异常Failed to start component

我做的一个考试系统,使用了hibernate和spring,原来使用的tomcat版本是6,后来把tomcat换成了apache-tomcat-7.0.30-windows-x64,spring的版本 ...

&#106avascript中如何实现浏览器上的右键菜单

菜单|浏览器如何实现浏览器上的右键菜单最近在程序员大本营中的讨论中有一位老兄提出如何在浏览器中实现类似于应用程序的鼠标右击后出现右键菜单的效果.唯鱼试了试,发现不是很难解决.现在就将源码和原理说出 ...

如何选择关键词

一个好的网站标题和关键词,可让你的网站得到很好的排名效果. 做网站,选择关键词和网站标题是非常重要的,可参考下面的方法. 一.看百度或者谷歌指数百度指数查看方法:http://index.baidu ...

VBS、ASP代码语法加亮显示的类(2)

显示|语法 <% ' ************************************** ...

什么样的网站架构搜索引擎喜欢

近来很多观看 SEO姑苏博客的朋友都反映说文章中多次提到网站架构这一词语,在SEO优化和用户体验上需要一个合理的网站架构做支撑,但是可能没有一个专门的篇幅来对网站架构进行阐述,因此大家都不是很理解.今 ...

浅谈标题长度对SEO效果的影响

标题长度是否对SEO有影响,这个答案是非常肯定的.但具体应该是长还是要短,则很多人不太了解.按照TF-IDF算法和HillTop算法,标题要短才对SEO有利;但从长尾角度考虑流量的话,标题则需要覆盖一 ...

网络管理员遭遇网络不通时该怎么办

做为网络管理员经常会遭遇到网络不通的问题,尤其是做为网吧的网络管理员,一旦遇到网络不通的情况,一边要忍受网友的怨言,一边还要背负网吧老板的责难.这种滋味,可以想像会有多难受.遇到这种情况时,首先你要有 ...

如何改变、缩小CorelDraw中的图像扫描分辨率

问:如何缩小Coreldraw中的扫描分辨率? 我想请问一下,我每次做的一些广告都特别的大,如何改小? 有的图片是从扫描仪上扫描下来的,DPI很大,如果要在扫描后改DPI是如何改小?是不是DPI大所导 ...

Photoshop打造灿烂的春季绿色婚片

打造灿烂的春季绿色婚片原图素材的意境非常不错,有江水和刚发芽的树枝,春季意味浓厚.不过还不过有气势,处理的时候简单把江水等调成翠绿色,顶部再渲染一些阳光等,画面会更有生气. 原图 <点小图查看 ...

PS制作逼真浪漫烛杯

教程教三联的朋友们利用PS制作逼真浪漫烛杯.制作出来的效果非常逼真,喜欢的朋友可以学习下.下面是最终效果制作步骤如下: 1)在Photoshop中新建400*500像素文档,白背景. 2)先做桌 ...

linux系统设置命令别名的方法

最近搞一个Django站点,需要经常进入/var/www/site/mycitsm/这个目录,每次都得重复的输入这一长串路径进入该目录,显得麻烦而费时,有没有一种好的方式可以将"cd / ...

能让你的电脑数据更安全的几个设置详细介绍

一直以来电脑的安全是我们最关注的问题,有的人是为了数据的安全,而更多人是因为电脑中毒了而导致不得不重装系统.自己以前电脑上的数据之类的全多消失光光了.这个是让很多人最郁闷的事情了,而下面教你们几个方法 ...

一串字符串，可能是hh小时前，mm分钟前，或者2015-11-25这种形式，怎么换成现在时间

问题描述一串字符串,可能是hh小时前,mm分钟前,或者2015-11-25这种形式,怎么换成现在时间比如现在是2016年5月5号16点42分,8小时前->2016-05-05-0825分钟前 ...

各种天气API

新浪天气预报API http://php.weather.sina.com.cn/xml.php?city=武汉&password=DJOYnieT8234jlsK&day=0 其中, ...

定位光标-如何使用javascript使用方向键控制光标在table单元格的文本框(是TextBox控件)中跳动

问题描述如何使用javascript使用方向键控制光标在table单元格的文本框(是TextBox控件)中跳动最近在做一个仓库管理系统,客户说最好能用方向键来定位光标,不需要用鼠标点击,这样必须麻 ...

java-Java中string和stringbuffer有什么区别？？？

问题描述 Java中string和stringbuffer有什么区别??? Java中string和stringbuffer有什么区别???求各位前辈指点解决方案 String,StringBuil ...

treenode-谁能告诉我为啥是wrong?????????? 递归把我整蒙了

问题描述谁能告诉我为啥是wrong?????????? 递归把我整蒙了题目描述给定一颗二叉搜索树,请找出其中的第k大的结点.例如, 5 / 3 7 / / 2 4 6 8 中,按结点数值大小顺序 ...

MyLastWish：帮你找到有共同梦想的人

近日,据有关消息报道,一款名为My Last Wish的社交应用采用了与众不同的社交思路:帮助人们根据死前的愿望结交朋友. 据了解,用户可以在MyLastWish上发布自己的愿望,可以找到与自己有相同 ...

小心陷阱！MySQL中处理Null时需注意两点_Mysql

MySQL数据库是一个基于结构化数据的开源数据库.SQL语句是MySQL数据库中核心语言.不过在MySQL数据库中执行SQL语句,需要小心两个陷阱. 陷阱一:空值不一定为空空值是一个比较特殊的字段. ...

移动互联网使用男女有别：男性更爱点击浏览器页面广告

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅国外研究机构 Burst Medi ...

利用FRIDA攻击Android应用程序（三）

利用FRIDA攻击Android应用程序(三) 前言在我的有关frida的第二篇博客发布不久之后,@muellerberndt决定发布另一个OWASP Android crackme,我 ...

《C#多线程编程实战（原书第2版）》——3.5　实现一个取消选项

3.5 实现一个取消选项本节将通过一个示例来展示如何在线程池中取消异步操作. 3.5.1 准备工作为了学习本节,你需要安装Visual Studio 2015.除此之外无需其他准备.本节的源代码放 ...

我的Servlet老是java.lang.NullPointerException

问题描述下面是我的源码packagecom.servlet;importcom.ejb.Userinfo;importcom.ejb.Online;importjava.io.IOException ...

Ajax 配合node js multer 实现文件上传功能

说明作为一个node 初学者,最近在做一个聊天软件,支持注册.登录.在线单人.多人聊天.表情发送.各种文件上传下载.增删好友.聊天记录保存.通知声开关.背景图片切换.游戏等功能,所以用到了multe ...

java batik svg转png报错,来人呢！！！！！

问题描述报错内容org.apache.batik.transcoder.TranscoderException:nullEnclosedException:Thecurrentdocumentisu ...

分表分库后如何进行批量查询

问题描述请问:mysql分表分库后如何进行批量查询假如:我把一个read表分为二个数据库,30个表, 单独查询一条数据没任何问题,但是如果批量数据,,就需要同时连接二个数据库和30个表,其速度可想 ...

汇编程序-汇编语言程序设计求助

问题描述汇编语言程序设计求助题目一:将内存一个从符号地址DATA1开始连续m个存储单元的内容复制到内存中从DATA2开始的另一个区域,DATA1和DATA2在同一个数据段题目二:对于内存中从地址 ...

在c语言中，函数system能实现那些功能

问题描述在c语言中,函数system能实现那些功能用c编辑,system能实现电脑的那些功能?求具体代码?(例如shutdown _a _t实现电脑的倒计时关机) 解决方案 dos下的命令都能执行 ...

Netflix谋求全球霸主面临障碍:带宽费用太高

美国流视频服务商Netflix一直在加大全球扩张力度,并谋求在全世界范围内建立自己的霸主地位. 随着美国订阅用户数量增长势头开始放缓,Netflix一直在加大努力,以便通过拓展国际市场来促进自身的营收 ...

Kafka源码分析之InFlightRequests

InFlightRequests是对已经被发送或正在被发送但是均未接收到响应的客户端请求集合的一个封装,在它内部,有两个重要的变量,如下: // 每个连接最大执行中请求数 privat ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.034 s.