基于discuz在线分词批量优化Dedecms文章关键词

  dedecms本身自带tag(keywords)提取功能,但分词总是不够精确。当然,对于日更新十数篇且对seo精确执行的用户来说,手工输入能更好的控制。但对于主题比较宽泛、内容更新量大的用户来说,dede split是不大完美的。

  discuz在线分词是一个在线免费的提词接口。后有数十万中文论坛、supsite用户,对于语境、细胞词库的完善有更多的数据。 这个小程序是基于discuz在线分词批量更新已发内容的keywords(tag),如果数据量大(大于5万)的或者虚拟主机用户的话,最好环境搭到本地。速度会快一点。

  使用方法,cms安装目录,新建c.php,拷入以下内容,自己对应编码用notepad设置相应gbk或utf8。运行 yourwebsite/c.php?id=1

<?php
require_once(dirname(__FILE__).”/include/common.inc.php”);

$id = isset($id) && is_numeric($id) ? $id : 0;

for ($a=$id; $a<$id+10; $a++){

$row = $dsql->GetOne(” SELECT arc.title,tp.body FROM `@__archives` arc LEFT JOIN `@__addonarticle` tp ON arc.id=tp.aid where arc.id=’$a’ “);
 if(is_array($row))
 {
  $title = $row['title'];
  $body = $row['body'];
  $keywords=zhgetkey($title.$body);
  $dsql->ExecuteNoneQuery(” Update `@__archives` set keywords=’$keywords’ where id=’$a’ “);
  echo $a.’:’.$keywords.’<br />’;
 }
}
 
 if ($a>80000){break;}

echo “<script>”;
echo “setTimeout(\”location.replace(‘c.php?id=$a’)\”,0)”;
echo “</script>”;

function zhgetkey($contents){
$rows = strip_tags($contents);
$arr = array(‘ ‘,’ ‘,”\s”, “\r\n”, “\n”, “\r”, “\t”, “>”, ““”, “””,”<br />”);
$qc_rows = str_replace($arr, ”, $rows);
if(strlen($qc_rows)>2400){
$qc_rows = substr($qc_rows, ’0′, ’2400′);
}
$data = @implode(”, file(“http://keyword.discuz.com/related_kw.html?title=$qc_rows&ics=gbk&ocs=gbk”));
preg_match_all(“/<kw>(.*)A\[(.*)\]\](.*)><\/kw>/”,$data, $out, PREG_SET_ORDER);
$key=”";
for($i=0;$i<5;$i++){
$key=$key.$out[$i][2];
if($out[$i][2])$key=$key.”,”;
}
return $key;
}

function cutstr_html($string, $sublen)

{

$string = strip_tags($string);

$string = preg_replace (‘/\n/is’, ”, $string);

$string = preg_replace (‘/ | /is’, ”, $string);

$string = preg_replace (‘/&nbsp;/is’, ”, $string);

preg_match_all(“/[\x01-\x7f]|[\xc2-\xdf][\x80-\xbf]|\xe0[\xa0-\xbf][\x80-\xbf]|[\xe1-\xef][\x80-\xbf][\x80-\xbf]|\xf0[\x90-\xbf][\x80-\xbf][\x80-\xbf]|[\xf1-\xf7][\x80-\xbf][\x80-\xbf][\x80-\xbf]/”, $string, $t_string);

if(count($t_string[0]) – 0 > $sublen) $string = join(”, array_slice($t_string[0], 0, $sublen)).”…”;

else $string = join(”, array_slice($t_string[0], 0, $sublen));

return $string;

}

?>

时间: 2024-08-03 22:32:43

基于discuz在线分词批量优化Dedecms文章关键词的相关文章

dedecms文章标题是在哪个数据库表?要批量替换关键词

一位小MM刚接触dedecms没多久还不熟悉后台的操作,她说改dedecms文章中的品牌名改到手酸,问ytkah是否有批量替换关键词的方法,教了她dedecms后台批量替换文章中的关键词方法,她高兴坏了,感觉非常神奇!过没几分钟,她又发愁了,说标题还是没变,不知道如何批量替换dedecms文章标题中的关键词. 其实方法是一样的,只是数据表不同而已.那么,dedecms文章标题是在哪个数据库表呢?织梦文章标题在数据库dede_archives表中,如果你有设置数据库表前缀的话,dede换成自己设置

如何用sql批量删除一个id段内的dedecms文章?

之前因为ytkah批量添加了dedecms文章,数量有些多,后面出现问题了,想要删除一部分织梦文章,后台一篇篇删,删到手软(相关内容:修改dedecms关键词到手软),于是就想到了sql数据库操作!那么,如何用sql语句批量删除一个id段内的dedecms文章呢?比如id从300到500之间的文章. 首先我们得先知道dedecms文章最常用到哪些数据表.从上一篇文章我们清楚了dedecms文章标题在dede_archives里,dedecms文章内容在dede_addonarticle里,the

dedecms批量导出新增文章url和标题

百度站长工具推出主动提交功能有一段时间了,可以将新产出链接立即通过此方式推送给百度,以保证新链接可以及时被百度收录.那么dedecms如何批量导出新增文章url呢?你可以用标签调用最新文章,可以用sql导出,也可以用采集工具进行遍历,这边主要讲解用dedecms后台直接操作. 如下图所示,在dedecms后台 - 模板 - 全局标记测试 - 输入代码 - 提交测试就可以了 代码如下 {dede:arclist row="300"} <li>[field:fulltitle/

大型网站的 HTTPS 实践(三):基于协议和配置的优化

大型网站的 HTTPS 实践(三):基于协议和配置的优化 1 前言 上文讲到 HTTPS 对用户访问速度的影响. 本文就为大家介绍 HTTPS 在访问速度,计算性能,安全等方面基于协议和配置的优化. 2 HTTPS 访问速度优化 2.1 Tcp fast open HTTPS 和 HTTP 使用 TCP 协议进行传输,也就意味着必须通过三次握手建立 TCP 连接,但一个 RTT 的时间内只传输一个 syn 包是不是太浪费?能不能在 syn 包发出的同时捎上应用层的数据?其实是可以的,这也是 tc

Discuz! X2 图片展示优化 让看图成为一种乐趣

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 长久以来,人们从论坛里看图会有一些影响用户体验的细节:例如因图片过多.打开慢而产生的网页跳跃感,以缩略图纵向排列的图片展示方式比较单一,插入.未插入图片没有明显区分等等.Discuz! X2 特别针对图片显示方式进行优化,同时既能保留论坛传统阅读习惯,又能显著改善组图浏览的用户体验,让17890.html">浏览图片贴变成乐趣

Discuz! 7.2发布 优化产品细节30余项

中介交易 SEO诊断 淘宝客 云主机 技术大厅 11月19日消息,中国领先的社区平台与服务提供商康盛创想(Comsenz)旗下核心产品Discuz!新版正式发布.全新推出的Discuz! 7.2版本从用户注册登陆应用.社区论坛前后管理两方面着眼,增加和改进了30多处与社区门户运营密切相关的功能与细节,实现了邮箱登陆.分类信息检索.版块绑定域名等功能. 应用为王 应用为王,Discuz! 7.2版本充分贴近一线站长的运营需求.为了把握当前主流社区产品的应用趋势,满足地方及垂直社区门户化.规模化发展

细谈文章页seo优化技巧之关键词分布

之前分享了自己关于利用文章页打造长尾关键词的经验,参见<巧用文章页快速打造长尾排名>.在交流的过程中,很多朋友以为堆砌关键词在文章页面seo中是关键.这里就不得不提页面的关键词分布了. 目前的关键词分布理论中,比较推崇的是夫唯老师提出的四处一词概念,百度百科中有很详细的解释.主要操作如下: 1.网页标题与链接中含有目标关键词.标题是至关重要的位置,不用多讲了.而网页链接中的关键词,对于目前的部分程序来说,也可以实现. 2.meta元素中的关键词分布.以目前搜索引擎的技术来说,meta元素所占的

批量伪原创文章工具的使用方法

  批量伪原创文章工具是一款绿色小巧的文章伪原创软件,这款软件级好用的伪原创软件,这款软件可以帮助你对文章的内容.标题等进行伪原创编辑,这样一来它就能帮你轻松迅速的生成很多不一样的文章,从此告别千篇一律的文章,提高相关文章的质量与工作效率,需要的朋友快来下载吧! 批量伪原创文章工具使用方法 1.用火车采集器 采集文章 2.打开火车采集器跟目录下的data文件夹 3.点开后 随便点击一个你采集的项目文件夹 4.找到SpiderResult.mdb 看到了吧 它就是存储你采集的数据 5.复制51wy

基于Web在线考试系统的设计与实现

这是一个课程设计的文档,源码及文档数据库我都修改过了,貌似这里复制过来的时候图片不能贴出,下载地址:http://download.csdn.net/detail/sdksdk0/9361973   数据库原理课程设计说明书              基于Web在线考试系统的设计与实现             目  录   1 课题背景与意义.3 1.1课题开发背景.3 1.2 课题开发意义.3 2 系统需求分析.4 2.1 项目要求.4 2.2 开发方案.5 2.3开发环境.5 3 总体开发.