- 问题列表
- 我关注的
- 我的博问
- 博问标签
1 string url = "http://sports.sina.com.cn/o/2015-08-19/doc-ifxfxraw8933245.shtml"; 2 WebClient wc = new WebClient(); 3 Stream st = wc.OpenRead(url); 4 StreamReader sr = new StreamReader(st); 5 string res = sr.ReadToEnd(); 6 sr.Close(); 7 st.Close(); 8 9 //开始正则表达式替换 10 res = Regex.Replace(res, @"(.*)", "1", RegexOptions.Multiline); 11 12 13 Console.WriteLine(res); 14 Console.ReadKey();
这个是一个获取指定网址页面的源代码的c#代码。这只是获取整个网页的源码,如何获取指定xpath的源码呢?例如只获取//div[@class="conten"]这个xpath内的源码?如何写呢?另外,为什么上面这段代码执行之后返回的结果会是很多的1,而不是只有1个1呢?如图:
这是我在正则表达式工具测试的结果。为什么不一样?
1 // 匹配正文内容 2 string html = Regex.Match(res, @"<!-- 正文内容 begin -->([\s\S]*)<!-- 正文内容 end -->").Groups[0].Value; 3 4 //开始正则表达式替换 5 res = Regex.Replace(html, "亨特", "奥尔良", RegexOptions.Multiline); 6 7 Console.WriteLine(res); 8 Console.ReadKey();
非常感谢。不过用了你的代码,怎么什么内容也没有返回呢?如图
@G善源:
编码不对,网站用的编码是GB2312,C#默认使用的编码是UTF-8,所以你下下来的内容会出现中午乱码的情况,转一下编码即可
StreamReader sr = new StreamReader(st, Encoding.GetEncoding("GB2312"));
这个正则可以替换就出鬼了
建议用 HtmlAgilityPack 框架来处理html.
深圳坪山网站建设公司网站优化网络关键词奎文网站推广优化多少钱西宁市优化网站网站影响优化的错误武汉正规seo网站优化优化网站论坛莱山区集团网站优化优化网站需要什么建议优化型网站制作.低价机械行业网站优化重庆外贸网站优化医疗网站关键词优化槐荫网站优化代理商安庆网站优化推广公司哪家好简阳网站优化怎么选网站优化简历怎么福建优化网站更专业的推广平台网站导航栏对收录及优化的影响黑龙江如何优化网站his系统网站页面优化网站优化方案预期效果网站优化提升增城新塘网站关键词排名优化昆明网站关键字优化价格cms优化网站哪个好无锡网站搜索引擎优化外包环保设备网站优化西城网站优化服务银川网站优化企业丰南效果好的网站优化推荐香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤