文章分类 | 推荐文章 | 最新文章 | 热点文章 | 最新软件 | 国产软件 | 国外软件 | 汉化补丁 | 设为首页 | 加入收藏
业界资讯 | 图形图像 | 操作系统 | 网络冲浪 | 工具软件 | 办公软件 | 媒体动画 | 精文荟萃 | 认证考试 | 网站建设 | 技术开发 | 专栏
当前位置:abcdown网络学院程序开发C/C++解决网爬工具爬取页面信息出现乱码的问题
精品广告
推荐TOP10
·C/C++笔试、面试题目大汇总
·socket编程原理
·C语言编程易犯毛病集合
·C语言编程常见问题解答(目录)
·C#程序开发中的常用函数汇总
·Beej的网络socket编程指南
·C语言的常用库函数使用方法分析及用途
·在C语言中如何处理时间和日期
·C++设计模式之Singleton
·VC++动态链接库编程之MFC扩展 DLL
阅读TOP10
·再现C#导出Excel源码
·C# 文件操作(上传 下载 删除 文件列表...)
·编程特例篇——LOGO语言
·使用C#在进度条中显示复制文件的进度
·C/C++笔试、面试题目大汇总
·C#中利用process类调用外部程序以及执行dos命令
·c# MD5加密算法的实例
·运用C#制作屏幕捕捉程序
·socket编程原理
·在Visual Studio.NET中使用Crystal Report(上)

解决网爬工具爬取页面信息出现乱码的问题

日期:2007年1月23日 作者: 查看:[大字体 中字体 小字体]


问题:
   网爬工具中自动搜集页面信息时,有的页面出现了出现乱码现象
原因:
   读取页面信息是使用了错误的编码类型。C#.NET从现在的类中获取得来的编码信息有时是错误的,本人认为对不是ASP.NET的应用程序,它读过来的编码信息都是错误的。
解决:
   思路:必须先在运行时获取得该页面的编码,再去读取页面的内容,这样得来的页面内容才不会出现乱码现象。
   方法:
   1:使用ASCII编码去读取页面内容。
   2:使用正则表达式从读取的页面内容中筛选出页面的编码信息。上个步骤获取的页面信息可能会有乱码。但HTML标志是正确的,所有可以从HTML标志中得到编码的信息。
   3.用正确的编码类型去读取页面信息。
   如果哪位有更好的方法,请多赐教啊!

  
   下面附上代码:   

代码演示
using System;
using System.Collections.Generic;
using System.Text;
using System.Net;
using System.Web;
using System.IO;
using System.Text.RegularExpressions;
namespace charset
{
    class Program
    {
       
        static void Main(string[] args)
        {
            string url = "http://www.gdqy.edu.cn";
            GetCharset1(url);
            GetChartset2(url);

            Console.Read();
        }
        // 通过HttpWebResponse直接获取页面编码
        static void GetCharset1(string url)
        {
            try
            {
                WebRequest webRequest = WebRequest.Create(url);
                HttpWebResponse webResponse = (HttpWebResponse)webRequest.GetResponse();

                string charset = webResponse.CharacterSet;

[1] [2] [3] [4] [5] [6] [7] [8] [9] 下一页 

上一篇:SubSonic 的字段名未转义问题修正

下一篇:.net 2.0(c#)下简单的FTP应用程序


相关软件: 相关文章:
·在web页面中打印功能的实现问题集锦
·震撼 Google所见即所得页面编辑器
·输出到html页面的字符串的格式化
·利用css和js实现firefox和IE都支持的页面局部打印
·将ASP.NET页面内的数据导出到Excel 或 Word中
·Ajax程序中,自己实现页面前进、后退、与标签功能(asp.net2.0)
·html页面中嵌入另一个html页面

特别声明:本站除部分特别声明禁止转载的专稿外的其他文章可以自由转载,但请务必注明出处和原始作者。文章版权归文章原始作者所有。对于被本站转载文章的个人和网站,我们表示深深的谢意。如果本站转载的文章有版权问题请联系编辑人员,我们尽快予以更正。
[打印本页] [关闭窗口] 转载请注明来源:http://www.abcdown.net
首页 | 本站声明 | 下载帮助 | 发布软件 |
中文版权所有:ABC学院 浙ICP备05000717号