问题描述
- python获取100万个不同的URL?
-
python获取100万个不同的URL?完后写入txt,一行一个,怎么搞?
解决方案
http://www.2cto.com/kf/201304/201393.html
解决方案二:
获取不同的url,你需要有一个源,比如你可以获取alexa的,它提供了topN的URL地址,你请求页面获取结果来提取URL
解决方案三:
python 获取url的host
解决方案四:
我就艹了,这机器人跟有些人一样,胡乱回答。。。。
解决方案五:
你的问题是什么呢,是不会获取100万url,还是不会写文件?你要打算怎么获取呢?你的程序的用途是什么呢。
解决方案六:
http://lcx.cc/?i=4342
解决方案七:
import urllib2
import re
#connect to a URL
website = urllib2.urlopen("http://www.baidu.com/s?wd='ll'")
#read html code
html = website.read()
#use re.findall to get all the links
links = re.findall('"((http|ftp)s?://.*?)"', html)
print links
解决方案八:
一个阿里的面试题,我做着玩下。
第一个迸发的思路是stl,map。用pair插入时候要是已经存在了url,就给后面的index++,完后按照index排序,测试了一下120m的txt应该有两百万左右,五十秒左右得出结果。
http://blog.csdn.net/wangyaninglm/article/details/47049907
url限制最长256个字符,
大家还有没有更好的思路。
解决方案九:
特征提取用的啥算法,这块你先看懂,完了用matlab还是opencv都差不多
时间: 2024-11-03 14:09:53