黑帽联盟

 找回密码
 会员注册
查看: 1548|回复: 0
打印 上一主题 下一主题

[php] php正则去除网页中所有的html,js,css,注释的实现方法

[复制链接]

148

主题

9

听众

337

积分

版主

Rank: 7Rank: 7Rank: 7

  • TA的每日心情
    擦汗
    2018-6-6 11:33
  • 签到天数: 348 天

    [LV.8]以坛为家I

    下面给大家带来一篇php正则去除网页中所有的html,js,css,注释的实现方法。
    1. $search = array ("'<script[^>]*?>.*?</script>'si", // 去掉 javascript
    2. "'<style[^>]*?>.*?</style>'si",  // 去掉 css
    3. "'<[/!]*?[^<>]*?>'si",      // 去掉 HTML 标记
    4. "'<!--[/!]*?[^<>]*?>'si",      // 去掉 注释 标记
    5. "'([rn])[s]+'",  // 去掉空白字符
    6. "'&(quot|#34);'i",  // 替换 HTML 实体

    7. "'&(amp|#38);'i",
    8. "'&(lt|#60);'i",
    9. "'&(gt|#62);'i",
    10. "'&(nbsp|#160);'i",
    11. "'&(iexcl|#161);'i",
    12. "'&(cent|#162);'i",
    13. "'&(pound|#163);'i",
    14. "'&(copy|#169);'i",
    15. "'&#(d+);'e");   // 作为 PHP 代码运行
    16.   
    17. $replace = array ("",
    18. "",
    19. "",
    20. "",
    21. "\1",
    22. "\"",
    23. "&",
    24. "<",
    25. ">",
    26. " ",
    27. chr(161),
    28. chr(162),
    29. chr(163),
    30. chr(169),
    31. "chr(\1)");
    32. //$document为需要处理字符串,如果来源为文件可以$document = file_get_contents($filename);
    33. $out = preg_replace($search, $replace, $document);
    复制代码
    也可以使用php的内置函数strip_tags()清除html,js,注释等标记

    以上内容希望对大家有帮助
    帖子永久地址: 

    黑帽联盟 - 论坛版权1、本主题所有言论和图片纯属会员个人意见,与本论坛立场无关
    2、本站所有主题由该帖子作者发表,该帖子作者与黑帽联盟享有帖子相关版权
    3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和黑帽联盟的同意
    4、帖子作者须承担一切因本文发表而直接或间接导致的民事或刑事法律责任
    5、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责
    6、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意
    7、黑帽联盟管理员和版主有权不事先通知发贴者而删除本文

    您需要登录后才可以回帖 登录 | 会员注册

    发布主题 !fastreply! 收藏帖子 返回列表 搜索
    回顶部