藏金阁

让世界发现你的光彩

上一篇: [转帖].电脑关机三年,病毒也该饿死了吧? 下一篇:为什么程序员不愿写文档?

下列的函数分别用于获取HTML页面和提取页面中的超链接。

using System.Net;
using System.IO;
using System.Text;
using System.Text.RegularExpressions;

string[] GetLink(string strHtml)
{
    Regex reg 
= new Regex("href[\\s\\r]*=[\\s\\r]*[\"\']{0,1}([^\"\'\\s\\r>]*)[\"\'\\s\\r]{0,1}", RegexOptions.IgnoreCase);
    MatchCollection mc 
= reg.Matches(strHtml);
    
if (mc.Count > 0)
    {
        
string[] strHref = new string[mc.Count];
        
int i = 0;
        
foreach (Match m in mc)
        {
            strHref[i] 
= m.Groups[1].Value;
            
++i;
        }
        
return strHref;
    }
    
return null;
}

string GetHttp(string strUrl)
{
    
string strHtml = "";
    WebResponse wrp 
= null;

    
try
    {
        WebRequest wrq 
= WebRequest.Create(strUrl);
        wrq.Timeout 
= 60000;
        wrp 
= wrq.GetResponse();
    }
    
catch (WebException e)
    {

    }
    
catch (Exception e)
    {

    }
    
finally
    {
        
if (wrp != null)
        {
            StreamReader sr 
= new StreamReader(wrp.GetResponseStream(), Encoding.GetEncoding("GB2312"));
            strHtml 
= sr.ReadToEnd();
            sr.Close();
            wrp.Close();
        }
    }

    
return strHtml;
}

可首先使用GetHttp获取指定URL的页面内容,然后将此内容作为参数传给GetLink,GetLink返回的String数组中的每个元素代表一个超链接。

点击这里获取该日志的TrackBack引用地址

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

关于本文

您正在阅读的是:.NET中获取HTML页面并提取其中的超链接
apollo 发表于:2010-6-4 22:18:22
分类:程序代码
关键词:.NET  远程抓取  全部链接  
订阅藏金阁

什么是RSS订阅?查看解释
订阅到您的在线阅读器

抓虾 google reader my yahoo bloglines 鲜果 哪吒

博客作者

Apollo

最近发表

最新评论及回复

最近留言

控制面板

Search

网站分类

文章归档

图标汇集

  • RainbowSoft Studio Z-Blog
  • RainbowSoft Studio Z-Blog
  • 本站支持WAP访问
  • 订阅本站的 RSS 2.0 新闻聚合

Copyright 2008-2009 藏金阁 版权所有 All Rights Reserved.

Powered By Z-Blog 1.8 Spirit Build 80722 浙ICP备07009671号