[转]ASP实现关键词获取(各搜索引擎,GB2312及UTF-8)_应用技巧

不知道为什么现在各大搜索引擎编码居然不一样.当然不是GB2312就是UTF-8了.编码问题是比较头疼的问题...头疼的不要命...

我们获得关键词,一般是通过来访页面的url进行分析的.比如

http://www.google.com/search?hl=zh-CN&q=%E5%AD%A4%E7%8B%AC&lr=

各位肯定知道这个是通过urlencode编码的.

我们得到其中的信息,需要进行2步.第一步是进行urldecode,在我们普通参数活得的时候,这个是由ASP自己来进行的,但是现在我们不得不进行手工解码.

网上函数很多,但都是针对于GB2312页面解GB2312.UTF-8的.对于这个,我们可以很轻松的先进行解码,然后根据搜索引擎判断它的编码,如果是UTF-8就再转换为GB2312.

但是由于我的网站是UTF-8页面的.而UTF-8页面我找到的只有解UTF-8字符的urldecode编码的.在这里停顿了很久,最后我只能用最糟糕的方法,把拆分出来的关键词用xmlhttp提交到一个GB2312的ASP页面,然后活得乱码(GB2312)后再进行GB2312 to UTF-8的转换.

下面主要实现代码.

Public Function GetSearchKeyword(RefererUrl) 搜索关键词

 if RefererUrl="" or len(RefererUrl)<1 then exit function

  on error resume next

  Dim re

  Set re = New RegExp

  re.IgnoreCase = True

  re.Global = True

  Dim a,b,j

  模糊查找关键词此方法速度较快范围也较大

  re.Pattern = "(word=([^&]*)|q=([^&]*)|p=([^&]*)|query=([^&]*)|name=([^&]*)|_searchkey=([^&]*)|baidu.*?w=([^&]*))"

  Set a = re.Execute(RefererUrl)

  If a.Count>0 then

   Set b = a(a.Count-1).SubMatches

   For j=1 to b.Count

    If Len(b(j))>0 then 

     if instr(1,RefererUrl,"google",1) then 

       GetSearchKeyword=Trim(U8Decode(b(j)))

      elseif instr(1,refererurl,"yahoo",1) then 

       GetSearchKeyword=Trim(U8Decode(b(j)))

      elseif instr(1,refererurl,"yisou",1) then

       GetSearchKeyword=Trim(getkey(b(j)))

      elseif instr(1,refererurl,"3721",1) then

       GetSearchKeyword=Trim(getkey(b(j)))

      else 

       GetSearchKeyword=Trim(getkey(b(j)))

     end if

     Exit Function

    end if

   Next

  End If

  if err then

  err.clear

  GetSearchKeyword = RefererUrl

  else

  GetSearchKeyword = ""  

  end if  

 End Function

 Function URLEncoding(vstrIn)

  dim strReturn,i,thischr

    strReturn = ""

    For i = 1 To Len(vstrIn)

        ThisChr = Mid(vStrIn,i,1)

        If Abs(Asc(ThisChr)) < &HFF Then

            strReturn = strReturn & ThisChr

        Else

            innerCode = Asc(ThisChr)

            If innerCode < 0 Then

                innerCode = innerCode + &H10000

            End If

            Hight8 = (innerCode  And &HFF00)\ &HFF

            Low8 = innerCode And &HFF

            strReturn = strReturn & "%" & Hex(Hight8) &  "%" & Hex(Low8)

        End If

    Next

    URLEncoding = strReturn

End Function

function getkey(key)

dim oreq

set oreq = CreateObject("MSXML2.XMLHTTP")

oReq.open "POST","http://"&WebUrl&"/system/ShowGB2312XML.asp?a="&key,false

oReq.send

getkey=UTF2GB(oReq.responseText)

end function

function chinese2unicode(Str) 

  dim i 

  dim Str_one 

  dim Str_unicode 

  for i=1 to len(Str) 

    Str_one=Mid(Str,i,1) 

    Str_unicode=Str_unicode&chr(38) 

    Str_unicode=Str_unicode&chr(35) 

    Str_unicode=Str_unicode&chr(120) 

    Str_unicode=Str_unicode& Hex(ascw(Str_one)) 

    Str_unicode=Str_unicode&chr(59) 

  next 

  Response.Write Str_unicode 

end function     

function UTF2GB(UTFStr)

Dim dig,GBSTR

    for Dig=1 to len(UTFStr)

        if mid(UTFStr,Dig,1)="%" then

            if len(UTFStr) >= Dig+8 then

                GBStr=GBStr & ConvChinese(mid(UTFStr,Dig,9))

                Dig=Dig+8

            else

                GBStr=GBStr & mid(UTFStr,Dig,1)

            end if

        else

            GBStr=GBStr & mid(UTFStr,Dig,1)

        end if

    next

    UTF2GB=GBStr

end function 

function ConvChinese(x) 

dim a,i,j,DigS,Unicode

    A=split(mid(x,2),"%")

    i=0

    j=0

    for i=0 to ubound(A) 

        A(i)=c16to2(A(i))

    next

    for i=0 to ubound(A)-1

        DigS=instr(A(i),"0")

        Unicode=""

        for j=1 to DigS-1

            if j=1 then 

                A(i)=right(A(i),len(A(i))-DigS)

                Unicode=Unicode & A(i)

            else

                i=i+1

                A(i)=right(A(i),len(A(i))-2)

                Unicode=Unicode & A(i) 

            end if 

        next

        if len(c2to16(Unicode))=4 then

            ConvChinese=ConvChinese & chrw(int("&H" & c2to16(Unicode)))

        else

            ConvChinese=ConvChinese & chr(int("&H" & c2to16(Unicode)))

        end if

    next

end function

function U8Decode(enStr)

  输入一堆有%分隔的字符串先分成数组根据utf8规则来判断补齐规则

  输入:关 E5 85 B3  键  E9 94 AE 字   E5 AD 97

  输出:关 B9D8  键  BCFC 字   D7D6

  dim c,i,i2,v,deStr,WeiS

  for i=1 to len(enStr)

    c=Mid(enStr,i,1)

    if c="%" then

      v=c16to2(Mid(enStr,i+1,2))

      判断第一次出现0的位置

      可能是1(单字节)3(3-1字节)4567不可能是2和大于7

      理论上到7实际不会超过3。

      WeiS=instr(v,"0")

      v=right(v,len(v)-WeiS)第一个去掉最左边的WeiS个

      i=i+3

      for i2=2 to WeiS-1

        c=c16to2(Mid(enStr,i+1,2))

        c=right(c,len(c)-2)其余去掉最左边的两个

        v=v & c

        i=i+3

      next

      if len(c2to16(v)) =4 then

        deStr=deStr & chrw(c2to10(v))

      else

        deStr=deStr & chr(c2to10(v))

      end if

      i=i-1

    else

      if c="+" then

        deStr=deStr&" "

      else

        deStr=deStr&c

      end if

    end if

  next

  U8Decode = deStr

end function

function c16to2(x)

 这个函数是用来转换16进制到2进制的可以是任何长度的一般转换UTF-8的时候是两个长度比如A9

 比如输入“C2”转化成“11000010”,其中1100是"c"是10进制的121100那么210不足4位要补齐成0010。

 dim tempstr

 dim i:i=0临时的指针

 for i=1 to len(trim(x))

  tempstr= c10to2(cint(int("&h" & mid(x,i,1))))

  do while len(tempstr)<4

   tempstr="0" & tempstr如果不足4位那么补齐4位数

  loop

  c16to2=c16to2 & tempstr

 next

end function

function c2to16(x)

  2进制到16进制的转换每4个0或1转换成一个16进制字母输入长度当然不可能不是4的倍数了

  dim i:i=1临时的指针

  for i=1 to len(x)  step 4

   c2to16=c2to16 & hex(c2to10(mid(x,i,4)))

  next

end function

function c2to10(x)

  单纯的2进制到10进制的转换不考虑转16进制所需要的4位前零补齐。

  因为这个函数很有用以后也会用到做过通讯和硬件的人应该知道。

  这里用字符串代表二进制

   c2to10=0

   if x="0" then exit function如果是0的话直接得0就完事

   dim i:i=0临时的指针

   for i= 0 to len(x) -1否则利用8421码计算这个从我最开始学计算机的时候就会好怀念当初教我们的谢道建老先生啊

    if mid(x,len(x)-i,1)="1" then c2to10=c2to10+2^(i)

   next

end function

function c10to2(x)

10进制到2进制的转换

  dim sign, result

  result = ""

  符号

  sign = sgn(x)

  x = abs(x)

  if x = 0 then

    c10to2 = 0

    exit function

  end if

  do until x = "0"

    result = result & (x mod 2)

    x = x \ 2

  loop

  result = strReverse(result)

  if sign = -1 then

    c10to2 = "-" & result

  else

    c10to2 = result

  end if

end function

function URLDecode(enStr)

  dim  deStr,strSpecial

  dim  c,i,v

  deStr=""

  strSpecial="!""#$%&()*+,/:;<=>?@[\]^`{ |}~%"

  for  i=1  to  len(enStr)

    c=Mid(enStr,i,1)

    if  c="%"  then

    v=eval("&h"+Mid(enStr,i+1,2))

    if  inStr(strSpecial,chr(v))>0  then

    deStr=deStr&chr(v)

    i=i+2

    else

    v=eval("&h"+Mid(enStr,i+1,2)+Mid(enStr,i+4,2))

    deStr=deStr&chr(v)

    i=i+5

    end  if

    else

    if  c="+"  then

    deStr=deStr&" "

    else

    deStr=deStr&c

    end  if

    end  if

  next

  URLDecode=deStr

end function

许多代码都是网上的.找不到作者.

PS:现在暑假就要接受,由于家庭原因我不想留在我的城市.中考到达本地重点.不想说城市名字.否则会招来熟人.只要不在山东的学校算是重点的能不能联系下.

QQ:32113739

对程序有极大兴趣,但信息奥赛只活得一等的X名.因为我认为技术不应该在所谓竞赛中体现,就如才能不应该在那些无意义的考试中体现一样.电子作品也弄了各省一等..不过也一般学习一般...所以只要是一般重点就好了..只是不想在离家太近的地方.

现在ASP十分熟练,虽然有些知识缺陷,比如编码问题(汗...),但是网络如此大,我想我不是只有在课本中才能得到所谓的知识.而且现在正在啃ASP.net的书,如果贵校做网站完全可以帮忙.

对新技术十分狂热,虽然被他们称为审美有障碍的人.但我想看到结构偶的程序还不至于吐血.

算了..再贴点.

偶开发D Database+ASP ->xml+xslt->xhtml +css 的算是叫CMS的东西

http://www.joysou.com

也用了CSDN用的FCK编辑器,今天上来才发现换了.不过那个FCK的FIle系统让偶统统改掉.

这个系统在暑假结束前一定会发布.不过很多朋友说易用性有问题...很多人不会xslt.汗...

唉...如果找不到学校.我也许会漂泊,也许会消失吧.当然这不是威胁..只是恨我的城市,恨那里看到的,干过的一切.

时间: 2024-11-16 23:07:12

[转]ASP实现关键词获取(各搜索引擎,GB2312及UTF-8)_应用技巧的相关文章

asp实现关键词获取(各搜索引擎,gb2312及utf-8)

不知道为什么现在各大搜索引擎编码居然不一样.当然不是gb2312就是utf-8了.编码问题是比较头疼的问题...头疼的不要命... 我们获得关键词,一般是通过来访页面的url进行分析的.比如 http://www.google.com/search?hl=zh-CN&q=%E5%AD%A4%E7%8B%AC&lr= 各位肯定知道这个是通过urlencode编码的. 我们得到其中的信息,需要进行2步.第一步是进行urldecode,在我们普通参数活得的时候,这个是由asp自己来进行的,但是现

[转]ASP实现关键词获取(各搜索引擎,GB2312及UTF-8)

不知道为什么现在各大搜索引擎编码居然不一样.当然不是GB2312就是UTF-8了.编码问题是比较头疼的问题...头疼的不要命... 我们获得关键词,一般是通过来访页面的url进行分析的.比如 http://www.google.com/search?hl=zh-CN&q=%E5%AD%A4%E7%8B%AC&lr= 各位肯定知道这个是通过urlencode编码的. 我们得到其中的信息,需要进行2步.第一步是进行urldecode,在我们普通参数活得的时候,这个是由ASP自己来进行的,但是现

asp实现关键词获取(各搜索引擎,gb2312及utf-8)

不知道为什么现在各大搜索引擎编码居然不一样.当然不是gb2312就是utf-8了.编码问题是比较头疼的问题...头疼的不要命... 我们获得关键词,一般是通过来访页面的url进行分析的.比如 http://www.google.com/search?hl=zh-CN&q=%E5%AD%A4%E7%8B%AC&lr= 各位肯定知道这个是通过urlencode编码的. 我们得到其中的信息,需要进行2步.第一步是进行urldecode,在我们普通参数活得的时候,这个是由asp自己来进行的,但是现

asp.net异步获取datatable并显示的实现方法_实用技巧

本文讲述了asp.net异步获取datatable并显示的实现方法.分享给大家供大家参考,具体如下: 上面就是结果,前台代码如下: <%@ Page Language="C#" AutoEventWireup="true" CodeFile="MethodOne.aspx.cs" Inherits="_Default" %> <!DOCTYPE html PUBLIC "-//W3C//DTD XH

asp.net动态获取Excel表名的函数代码_实用技巧

复制代码 代码如下: public string GetExcelFirstTableName(string excelFileName) { string tableName = null; if (File.Exists(excelFileName)) { using (OleDbConnection conn = new OleDbConnection("Provider=Microsoft.Jet." + "OLEDB.4.0;Extended Properties=

asp.net(c#)获取内容第一张图片地址的函数_实用技巧

首先找到内容里面第一个<img标签的位置,然后找到从这个起的第一个>的位置,得到第一张图片的完整标签. 然后通过分隔空格得到图片的各个属性和属性值,提取src的值就是图片的地址 代码如下: 复制代码 代码如下: /// <summary> /// 获取文中图片地址 /// </summary> /// <param name="content">内容</param> /// <returns>地址字符串</r

asp.net中获取新增加记录的ID Access版_实用技巧

这里参考了Erist.Protal里的代码 复制代码 代码如下: /// <summary> /// 增加新的文章 /// </summary> /// <param name="ArticleTitle"></param> /// <param name="Author"></param> /// <param name="ArticleFrom"></p

在asp.net中获取当前页面的URL的方法(推荐)_实用技巧

获取Url的方法有两种,通过后台获得或通过前面js获得,如下: 1.通过C#获取当前页面的URL string url = Request.Url.AbsoluteUri; //结果: http://www.jb51.net/web/index.aspx string host = Request.Url.Host; //结果:www.jb51.net string rawUrl = Request.RawUrl; //结果:/web/index.aspx string localPath =

asp.net下获取Excel所有的工作表名称_实用技巧

.net 获取Excel所有工作表名称:         OleDbConnection oleConn = new OleDbConnection();             oleConn.ConnectionString = "Provider=Microsoft.Jet.Oledb.4.0;data source=D:\\Data.xls;Extended Properties=Excel 8.0;";             oleConn.Open();