python获取100万个不同的URL？

问题描述

python获取100万个不同的URL？: python获取100万个不同的URL？完后写入txt，一行一个，怎么搞？

解决方案

http://www.2cto.com/kf/201304/201393.html

解决方案二：

获取不同的url，你需要有一个源，比如你可以获取alexa的，它提供了topN的URL地址，你请求页面获取结果来提取URL

解决方案三：

python 获取url的host

解决方案四：

我就艹了，这机器人跟有些人一样，胡乱回答。。。。

解决方案五：

你的问题是什么呢，是不会获取100万url，还是不会写文件？你要打算怎么获取呢？你的程序的用途是什么呢。

解决方案六：

http://lcx.cc/?i=4342

解决方案七：

 import urllib2 

import re 

#connect to a URL 

website = urllib2.urlopen("http://www.baidu.com/s?wd='ll'") 

#read html code 

html = website.read() 

#use re.findall to get all the links 

links = re.findall('"((http|ftp)s?://.*?)"', html) 

print links

解决方案八：

一个阿里的面试题，我做着玩下。
第一个迸发的思路是stl，map。用pair插入时候要是已经存在了url，就给后面的index++，完后按照index排序，测试了一下120m的txt应该有两百万左右，五十秒左右得出结果。
http://blog.csdn.net/wangyaninglm/article/details/47049907

url限制最长256个字符，
大家还有没有更好的思路。

解决方案九：

特征提取用的啥算法，这块你先看懂，完了用matlab还是opencv都差不多

时间： 2024-11-03 14:09:53

python获取100万个不同的URL？的相关文章

阿里电话面试问题----100万个URL如何找到出现频率最高的前100个？

内推阿里电话面试中面试官给我出的一个题: 我想的头一个解决方案,就是放到stl 的map里面对出现的频率作为pair的第二个字段进行排序,之后按照排序结果返回: 下面口说无凭,show your code,当然在讨论帖子中遭遇了工程界大牛的sql代码在技术上的碾压.什么是做工程的,什么是工程师的思维,不要一味的埋头搞算法. 讨论帖: http://bbs.csdn.net/topics/391080906 python 抓取百度搜索结果的讨论贴: http://bbs.csdn.net/topi

我们用4行代码节省了100万相见恨晚的PCDN

我们公司主要做视频在线点播,还有少量视频下载.比较关心网络加速,首先就是价格,其次是首播时间.流畅率这几个核心性能指标.目前使用阿里云PCDN也有几个月了,整体结果是超预期.值得安利的.写这篇文章,希望能通过选型对比.接入过程.效果实现几个方面的真实感受,给还在犹豫的同行们一些启发,希望文章内容对你们有所帮助. 废话少说,先直接说效果:每月的CDN费用比以前少了近50%,首播时间.流畅率略优于使用中的2家CDN.这个结果真是让人喜大普奔,原以为PCDN价格比CDN低这么多,性能会不好,没想到这货

python获取远程图片大小和尺寸的方法

这篇文章主要介绍了python获取远程图片大小和尺寸的方法,实例分析了Python中urllib2.urlopen方法及图片操作技巧,需要的朋友可以参考下本文实例讲述了python获取远程图片大小和尺寸的方法.分享给大家供大家参考.具体分析如下: 这段代码通过urllib2打开远程图片,通过cStringIO读取文件内容,不用保存到磁盘即可读取图片文件的信息 ? 1 2 3 4 5 6 7 8 #!/usr/bin/env python #encoding=utf-8 import

支付宝放大招钻石会员免费提现额度达100万 | 附快速升级攻略

6月5号,蚂蚁金服宣布会员体系升级,其中最引人关注的是,钻石会员将享有当日余额宝快速转出额度20万元,以及免费提现100万元的特权. 而对于蚂蚁森林用户来说,最值得期待的是,钻石会员将会拥有"蚂蚁森林能量保护罩"特权,一旦开启,在规定的天数内,你的朋友起得再早也没法"偷走"你的能量了. 蚂蚁会员负责人徐笛介绍说,蚂蚁会员的升级是应会员的实际要求而定,不想提供毫无用处的摆设,而是给会员提供更实用的定制权益. 徐笛透露,很多钻石会员有着强烈的提现要求,因为余额宝每天每人

Badoo 告诉你切换到 PHP7 节省了 100 万美元

介绍我们成功的把我们的应用迁移到了php7上面(数百台机器的集群),而且运行的很好,据说我们是第二个把如此规模的应用切换到php7的企业,在切换的过程我们发现了一些php7字节码缓存的bug,庆幸的是这些bug现在已经被修复了,现在我们把这个激动人心的消息分享给所有的php社区:php7现在已经可以稳定的运行在商用环境上,而且比以前更加节省内存,性能也有的很大的提高. 下面我会详细的介绍下我们是如何把应用前移动php7的,我们在这中间遇到的问题及处理情况,还有最终的结果.但首先让我们回头看

java-大一新生妹子求救:求2的100万次方

问题描述大一新生妹子求救:求2的100万次方求2的100万次方的值,不能使用java中的系统函数,这两天急用,关乎到进项目组锻炼的机会,谢谢大家了. 解决方案试下这个吧,.要跑很久 import java.util.ArrayList; public class Test { public static ArrayList<Integer> doubleIt(ArrayList<Integer> a){ int addto=0; for(int i=0;i<a.size

随着下一个预览版本的推出，Linux SQL Server 2017镜像下载量超过了100万

本文讲的是随着下一个预览版本的推出,Linux SQL Server 2017镜像下载量超过了100万[译者的话]这篇文章介绍了在Linux Container中运行SQL Server的方案及其优势以及部分客户案例.SQL Server在很多企业中广泛运用,其容器化所带来的效益值得我们思考和借鉴. [3 天烧脑式容器存储网络训练营 | 深圳站]本次培训以容器存储和网络为主题,包括:Docker Plugin.Docker storage driver.Docker Volume Pulgin.

python获取指定网页上所有超链接的方法_python

本文实例讲述了python获取指定网页上所有超链接的方法.分享给大家供大家参考.具体如下: 这段python代码通过urllib2抓取网页,然后通过简单的正则表达式分析网页上的全部url地址 import urllib2 import re #connect to a URL website = urllib2.urlopen(url) #read html code html = website.read() #use re.findall to get all the links links

饿了么扩张路：日订单100万单曾在地铁站发传单

今年5月初,在大众点评以8000万美元入股饿了么"时,饿了么还只是一个拥有300人和12个城市的外送网站.5个月之后,这个数字翻了8倍.截止到10月中旬,饿了么扩张到了2500人和187个城市,日订单量从10万单增长到100万单.这是一个起于校园的外卖送餐公司.从交大校园到上海市内,最终扩张到全国,联合创始人兼首席战略官康嘉突然发现:以前我们干掉的都是一些地方性的小网站,突然有天发现,马云也是我们竞争对手了,又突然看见王兴(美团网创始人)关注我微博,王慧文(美团外卖负责人)要过来拜访我,感觉莫