三种获取网页源码的方法(使用MFC/Socket实现)_C 语言

第一个方法是使用MFC里面的

<afxinet.h>

复制代码 代码如下:

CString GetHttpFileData(CString strUrl)
{
     CInternetSession Session("Internet Explorer", 0);
     CHttpFile *pHttpFile = NULL;
     CString strData;
     CString strClip;
     pHttpFile = (CHttpFile*)Session.OpenURL(strUrl);
    while ( pHttpFile->ReadString(strClip) )
     {
      strData += strClip;
      }
     return strData;
}

要讲一下,pHttpFile->ReadString() 每次可能只读一个数据片断,读多少次取决于网络状况,所以要把每次读到的数据加到总数据的尾部,用了CString 省去了缓冲区处理:)
别忘了包含头文件#include <afxinet.h> 在工程设置,里面要选择 using MFC 要不然编译不了

第二种是使用WinNet的纯API实现的

复制代码 代码如下:

#define MAXBLOCKSIZE 1024
#include <windows.h>
#include <wininet.h>

#pragma comment(lib, "wininet.lib")

void GetWebSrcCode(const char *Url);

int _tmain(int argc, _TCHAR* argv[])
{
    GetWebSrcCode("http://www.jb51.net/");

    return 0;
}

void GetWebSrcCode(const char *Url)
{
    HINTERNET hSession = InternetOpen("zwt", INTERNET_OPEN_TYPE_PRECONFIG, NULL, NULL, 0);
    if (hSession != NULL)
    {
        HINTERNET hURL = InternetOpenUrl(hSession, Url, NULL, 0, INTERNET_FLAG_DONT_CACHE, 0);
        if (hURL != NULL)
        {
            char Temp[MAXBLOCKSIZE] = {0};
            ULONG Number = 1;

            FILE *stream;
            if( (stream = fopen( "E:\\test.html", "wb" )) != NULL )
            {
                while (Number > 0)
                {
                    InternetReadFile(hURL, Temp, MAXBLOCKSIZE - 1, &Number);
                    fwrite(Temp, sizeof (char), Number , stream);
                }
                fclose( stream );
            }

            InternetCloseHandle(hURL);
            hURL = NULL;
        }

        InternetCloseHandle(hSession);
        hSession = NULL;
    }
}

第三种就是使用非封装过的Socket实现了

复制代码 代码如下:

int main(int argc, char* argv[])
{
    SOCKET hsocket;
    SOCKADDR_IN saServer;
    WSADATA wsadata;
    LPHOSTENT lphostent;
    int nRet;
    char Dest[3000]; 
    char* host_name="blog.sina.com.cn";
    char* req="GET /s/blog_44acab2f01016gz3.html HTTP/1.1\r\n"
        "User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET4.0C; .NET4.0E; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)\r\n"
        "Host:blog.sina.com.cn\r\n\r\n";

    // 初始化套接字 
    if(WSAStartup(MAKEWORD(2,2),&wsadata))
        printf("初始化SOCKET出错!");
    lphostent=gethostbyname(host_name);  
    if(lphostent==NULL)  
        printf("lphostent为空!");  
    hsocket = socket(AF_INET,SOCK_STREAM,IPPROTO_TCP);  
    saServer.sin_family = AF_INET;  
    saServer.sin_port = htons(80);  
    saServer.sin_addr =*((LPIN_ADDR)*lphostent->h_addr_list);  
    // 利用SOCKET连接  
    nRet = connect(hsocket,(LPSOCKADDR)&saServer,sizeof(SOCKADDR_IN));  
    if(nRet == SOCKET_ERROR)  
    {
        printf("建立连接时出错!");  
        closesocket(hsocket);
        return 0;
    }
    // 利用SOCKET发送  

    nRet = send(hsocket,req,strlen(req),0);  
    if(nRet==SOCKET_ERROR)  
    {  
        printf("发送数据包时出错!");  
        closesocket(hsocket);  
    }  
    nRet=1;  
    while(nRet>0)  
    {  
        // 接收返回数据包  
        nRet=recv(hsocket,(LPSTR)Dest,sizeof(Dest),0);  
        if(nRet>0)
            Dest[nRet]=0;
        else  
            Dest[0]=0; 
        char sDest[3000] = {0};
        UTF8_2_GB2312(sDest,nRet,Dest,nRet);
        // 显示返回数据包的大小、内容 
        //printf("\nReceived bytes:%d\n",nRet);  
        printf("Result:\n%s",sDest);  
    }
}

另外,以上我们获取网页的时候,获取到的可能是UTF8,似乎目前大多数网站都用的这种编码吧!下面是编码转换。

复制代码 代码如下:

void UTF_8ToUnicode(wchar_t* pOut,char *pText)
{  
    char* uchar = (char *)pOut;
    uchar[1] = ((pText[0] & 0x0F) << 4) + ((pText[1] >> 2) & 0x0F);
    uchar[0] = ((pText[1] & 0x03) << 6) + (pText[2] & 0x3F);
}
void Gb2312ToUnicode(wchar_t* pOut,char *gbBuffer)
{  
    ::MultiByteToWideChar(CP_ACP,MB_PRECOMPOSED,gbBuffer,2,pOut,1);
}
void UTF_8ToGB2312(char*pOut, char *pText, int pLen) 
{  
    char Ctemp[4];  
    memset(Ctemp,0,4);
    int i =0 ,j = 0;
    while(i < pLen)
    { 
        if(pText[i] >= 0) 
        { 
            pOut[j++] = pText[i++];
        }
        else
        { 
            WCHAR Wtemp;
            UTF_8ToUnicode(&Wtemp,pText + i);
            UnicodeToGB2312(Ctemp,Wtemp);
            pOut[j] = Ctemp[0];
            pOut[j + 1] = Ctemp[1]; 
            i += 3;  
            j += 2; 
        }  
    }
    pOut[j] ='\n';
    return;
}

这是是转换成GB2312的代码

时间: 2024-08-18 03:58:22

三种获取网页源码的方法(使用MFC/Socket实现)_C 语言的相关文章

android获取网页源码问题

问题描述 android获取网页源码问题 以下是我从网上找的获取网页源码的 代码 所有包都已经正常导入 但是编译后 程序一运行就崩溃 求大神指点import 略; /** @author Jasonzhou @since 2013-03-21 @功能 读取网页内容 @说明 获取网页的全部代码后使用jsuop进行处理, 以便得到想要的内容**/ public class MainActivity extends Activity { public String url = ""http:

技术-用jsoup抓取网页获取网页源码的时候,得到的源码和在网站上面点击右键查看源码不相同,怎么解决

问题描述 用jsoup抓取网页获取网页源码的时候,得到的源码和在网站上面点击右键查看源码不相同,怎么解决 用jsoup抓取网页获取网页源码的时候,得到的源码和在网站上面点击右键查看源码不相同,怎么解决 Document doc = Jsoup.parse(new URL(url), 5000); 解决方案 一部分html是ajax异步加载的,你得用fiddler调试,得到这些请求,照着写 解决方案二: C++ 抓取网页的源码获取网页的源码获取网页源码工具类

HttpURLConnection获取网页源码 网址太长不能正确获取数据

问题描述 HttpURLConnection获取网页源码 网址太长不能正确获取数据 我用HttpURLConnection获取网页源码 当网址比较长的时候就无法正确连接到网页是怎么回事? 代码如下: private String getURLResponse(String urlString){ HttpURLConnection conn = null; //连接对象 InputStream is = null; String resultData = ""; try { URL u

utf-8-WinHttpRequst获取网页源码乱码

问题描述 WinHttpRequst获取网页源码乱码 返回的网页编码是utf-8的,我这样转显示乱码,应该怎么做 CString strRetData; _variant_t varRspBody = pHttpReq->GetResponseBody(); char *pContentBuffer = (char *)varRspBody.parray->pvData; strRetData = pContentBuffer; 解决方案 获取网页源码c# 获取网页源码C#获取网页源码 解决方

ie源码-VB获取网页源码,高手指导!

问题描述 VB获取网页源码,高手指导! Private Sub Command4_Click() ' On Error Resume Next Dim baiIE As Object For Each baiIE In dWinFolder If InStr(1, baiIE.FullName, "", vbTextCompare) <> 0 Then If InStr(1, baiIE.LocationURL, "www.taobao.com", vb

IHTMLDocument2获取网页源码时总是弹出安全警告

问题描述 .net中当获取网页源码时总是提出安全警告,代码如下:publicstaticstringGetDynamicHtmlFromUrl(stringsinaUrl,Encodingencoding){mshtml.HTMLDocumenthtmldoc=newmshtml.HTMLDocument();mshtml.IHTMLDocument2htmldoc2;mshtml.IHTMLDocument3htmldoc3;IPersistStreamInitips=(IPersistStr

java 获取网页源码(包括js动态生成的)

问题描述 不知道那位大侠做过类似的东西,我现在就想做一个能够对网页源码解析的一个小工具,可是我试了很多种方式都不行;都说HtmlUnit这个可以加载Js生成的数据,可是我用了还是不行,HttpClient这个只能得到静态生成的网页源码.各位高手给个案例,谢谢! 解决方案 解决方案二:js动态生成的代码需要分析理解函数调用产生的结果代码(一部分是猜).解决方案三:jsoup可能会实现吧解决方案四:jsoup也不行,就是不知道如何模拟网页执行后的过程解决方案五:如果确实需要那就自己模拟个浏览器吧.解

webview可以获取网页源码,进行重新排版吗

 private void getHtml_data(String Url, int FontSize) {                 String text = "";                try {                        URL url = new URL(Url);                        URLConnection conn;                         conn = url.openConnec

Android: 在WebView中获取网页源码

1. 使能javascript:  ? 1 webView.getSettings().setJavaScriptEnabled(true); 2. 编写本地接口 ? 1 2 3 4 5 final class InJavaScriptLocalObj {     public void showSource(String html) {         Log.d("HTML", html);     } } 3. 向网页暴露本地接口 ? 1 webView.addJavascrip