众推项目的最近讨论

openKM

想问下有没有这样的开源文件管理系统,所有人都可以上传文件,只有有权限的管理员才可以下载他人的文件?

不知道openkm能不能做到。

OpenKM是一个开放源代码的电子文档管理系统,它的特点是可用于大型公司或是中小企业, 适应性比较强。 并且在知识管理方面的加工,提供了更加灵活和成本较低的替代应用。

界面如下:

zongtui项目

项目地址: 
(分布式爬虫)http://git.oschina.net/zongtui/zongtui-webcrawler 
(去重过滤器)https://git.oschina.net/zongtui/zongtui-filter 
(文本分类器)https://git.oschina.net/zongtui/zongtui-classifier 
(文档目录)https://git.oschina.net/zongtui/zongtui-doc

然后再推荐一篇文章:(深度学习 vs 机器学习 vs 模式识别)

http://www.itd4j.com/cloudcomputing/15538.html

自动化部署

请问 有Java的自动化部署工具推荐不?

有时候修改几个文件就要重新打包发布重启,太麻烦了,请问有什么更好的办法么?

Jenkins是一个开源软件项目,旨在提供一个开放易用的软件平台,使持续集成变成可能经济界。

云爬取

就是有一个客户端要爬取一千个商品,他可以提交给服务器,然后有服务器在分配给其它客户端来爬取。这样搞性能比较高,还能逃过IP限制。

那就是用户要爬什么资料。你就让用户自己去爬取。服务端只负责,接收任务,分配任务,返回任务。

等于是免费的ip池而已。。

项目新架构

经过讨论,目前的项目新架构已经修改如下:

这样,问题的集中点就在如何接入爬虫上了,因为现在各种爬虫已经太多,没必要在搞一个什么新鲜的东西!

core部分的思路参考:

下一步的处理

1.通过设定规则抓取页面;

2.设定页面存储方案;

3.通过页面材料分析出内容属性;

4.通过内容属性生成结果;

5.通过结果进行学习;

6.通过结果生成内容;

说一下为什么接入其它的,我举两个例子

1、webmagic

就我知道,这哥们写了2年,基本上各种问题都遇到过。没必要再走一遍它的路,如果有问题可以通过它预留的接口帮它完善,或者直接用自己的实现。比如有性能问题,就我知道现在国内没有一个比较权威的对各种爬虫做比较。

2、Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。

说它有问题我觉得只有这么几种可能:

1、场景不适合。

2、没理解,没用明白。

所以我觉得没必要非得造个轮子。

个性化推荐

用户端就是数据呈现了,我的理解是内容方主要的工作是:采集、整理、推荐、打TAG、分值(多个)、推荐、赞、踩、回复数、类型(图文、视频、文本、微信、微博等);

用户这边的东西就确实高级很多:单体关系画像,不同社交圈关系画像,主要人群划分TAG得分,年龄、性别、职业、特别事件、喜欢内容TAG得分、收藏内容TAG得分、分享内容TAG得分、不感兴趣内容TAG得分(负值或其他分数) 
推荐引擎主要的工作:按照用户的tag得分匹配内容,结合地理位置(当前的和常用的)、当前时间段(早、中、下、晚)、当前日期(节日、周末)、热点实时注册的时候选择标签这个是SNS的做法了,头条现在基本上都是从用户关系拿了关联用户数据再来推。

众推只要完成了初步的推荐功能,其他的基本上都是靠运营的人来积累数据。没有足够的数据肯定精准度要差点。比如一点资讯,现在内容差不多已经全搬过来了,但是推荐还是很烂,主要靠套用头条的编辑推荐那块,人工加了点分值。要不然感觉推荐会更加不准。

时间: 2024-10-30 10:44:32

众推项目的最近讨论的相关文章

众推架构的进一步讨论

讨论内容 昨天的架构基本确定成如下图所示: 针对此架构,大家分别提了不同的看法: [大侠]秦刘 9:53:58   工作节点的爬虫 应该就是普通的一个cmd形式的小程序,对不对?  [大侠]秦刘 9:54:38    webapp的作用应该只是这个  [大侠]大常 9:55:11   这个是什么的设计图?  [大侠]大常 9:55:16   怎么有点看不太懂呢? [师兄]深简 9:56:07 感觉看懂了. [师兄]深简 9:56:11 [宗师]北张9:56:28 对 [掌门]广杨 9:56:33

众推项目的文档分享流程

文档分享流程 今天在群里与大家讨论,想一个比较合理的分享流程. 我想看到流程应该是挺清楚了,就不再多加文字方面的解释了! 有想参与的可以一起进来讨论 群号 194338168  想深度参与的加,不想参与的就别往里进了,现在需要的主要是开发和文档两类人.群会定期往出清人! (项目会开源出来)

众推平台架构——分布式爬虫

分布式爬虫架构 经过新一轮的投票,项目的范围已经基本确定. 大家决定 全力以付,集中攻克"分布式爬虫". 分布式爬虫架构1 使用队列,即生产者,消费都模式. 由于生产者将规则生成到队列,然后由爬虫集群(消费者)到队列中取规则,然后按优先级等规则进行爬取. 分布式爬虫架构2 类似于webmagic,webmagic的是一个无须配置.便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫.webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取.页面

中顺联众推途锐特价车

近日,记者从天津地区进口大众经销商中顺联众4S店了解到,元宵佳节即将来到,该店将在2月4日下午15:00,举行"人团圆,家团圆,中顺联众邀您一起欢度元宵节"活动.据了解,届时,店方将为到店客户特推一款特价车途锐,想不到的优惠价格,购车还有好礼相送,此外,其他各款车型也将给力优惠.感兴趣的朋友请到中顺联众4S店咨询详情. 大众 途锐 与大众途锐普通版相比,大众进口汽车此次推出的途锐限量版具有更加鲜明的运动外观设计.独有的个性化内饰以及出色的公路和越野道路表现,旨在成就精英人士的不凡人生.

继“黑掉五角大楼”之后 美军启动“黑掉陆军”众测项目

几乎每家大型科技公司都会给找出他们软件漏洞的黑客提供现金奖励.五角大楼也不甘落后,今年启动了其首个漏洞奖励项目以扩展政府防御其系统的方式.现在,军队也加入了进来,"黑掉陆军"漏洞奖励项目本月正式上马. 即将离职的美国陆军部长埃里克·范宁宣布,该项目诚邀黑客筛查陆军数字征兵基础设施中的漏洞.与"黑掉五角大楼"不同,"黑掉陆军"不仅邀请黑客评估静态网站,关注重点还放在征兵网站和申请者及现役军官的个人信息数据库上.该项目没有对所有人开放,只有通过审查的

个推CEO方毅:我如何收获6亿终端 对抗微信竞争的?

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 经历了连环创业的方毅,在本次对话中,分享了他的创业经验,与我们讨论了推送的未来,也对大数据和精准营销发表了自己的观点.最后,他说,自己是"伪装成技术公司",在互联网创业,文科生也不可以忽视技术. Part1:个推的前世今生 12楼君:方毅你好~能和大家简单地介绍下自己吗? 方毅:请大家百度"方毅".最著

关于正式启动PHP代码集成项目的声明

项目                      关于正式启动PHP代码集成项目的声明(讨论稿)     PHP代码集成项目酝酿已有时日了.相信有不少大作亟待发表.目前本项目已正式启动,特声明如下,如有不妥请指正:    1.本集成项目(除特别声明外)的版权归作者和项目参加者共有,著作权归作者所有.任何人都可对其进行使用.修改,但若用于商业目的,则需经作者本人同意.    2.项目代码用在讨论区发帖的形式发布,项目中单个文件不大于12K,多个文件以跟帖的形式发布.    3.本集成项目包容一切PH

美国漏洞众测平台HackerOne运营模式解读与分析

3月,当美国国防部宣布与HackerOne合作邀请黑客参与"Hack the Pentagon"的漏洞奖励计划之后,让HackerOne再次成为业界焦点.对于混迹于国内外各漏洞众测平台的菜鸟,以个人之见和能力所及对HackerOne写点介绍,谈点感受. 1 公司介绍 HackerOne是一个总部位于美国旧金山的漏洞众测公司,公司分部位于荷兰格罗宁根.多家世界知名技术公司都使用HackerOne平台,如Yahoo.Twitter.Adobe.Uber.facebook等.目前,Hacke

经验分享-20天轻松搞定一个6000的小项目

经过20天的沟通与开发,在云沃客上接的第一个项目终于成功交付了.目前产品运行良好,与客户的远程合作还算顺利,进度把握的也很好,算是比较成功的一次接包经历.现在给大家把从平台接包.开发.沟通.测试部署到最终的项目交付过程分享出来,供大家参考,如有需要改进的地方,也欢迎大家指正. 接包 以前做的项目都是通过熟人介绍或者自己跑的,偶尔在线接一些小的项目,但是没怎么用过类似这种自由开发平台或者众包平台,有次在网上找项目的过程中,偶然间发现了云沃客,上边项目不少,观察了几天发现项目更新的也挺快,当即决定在