黑帽联盟

标题: php正则去除网页中所有的html,js,css,注释的实现方法 [打印本页]

作者: heimao    时间: 2017-3-8 23:11
标题: php正则去除网页中所有的html,js,css,注释的实现方法
下面给大家带来一篇php正则去除网页中所有的html,js,css,注释的实现方法。
  1. $search = array ("'<script[^>]*?>.*?</script>'si", // 去掉 javascript
  2. "'<style[^>]*?>.*?</style>'si",  // 去掉 css
  3. "'<[/!]*?[^<>]*?>'si",      // 去掉 HTML 标记
  4. "'<!--[/!]*?[^<>]*?>'si",      // 去掉 注释 标记
  5. "'([rn])[s]+'",  // 去掉空白字符
  6. "'&(quot|#34);'i",  // 替换 HTML 实体

  7. "'&(amp|#38);'i",
  8. "'&(lt|#60);'i",
  9. "'&(gt|#62);'i",
  10. "'&(nbsp|#160);'i",
  11. "'&(iexcl|#161);'i",
  12. "'&(cent|#162);'i",
  13. "'&(pound|#163);'i",
  14. "'&(copy|#169);'i",
  15. "'&#(d+);'e");   // 作为 PHP 代码运行
  16.   
  17. $replace = array ("",
  18. "",
  19. "",
  20. "",
  21. "\1",
  22. "\"",
  23. "&",
  24. "<",
  25. ">",
  26. " ",
  27. chr(161),
  28. chr(162),
  29. chr(163),
  30. chr(169),
  31. "chr(\1)");
  32. //$document为需要处理字符串,如果来源为文件可以$document = file_get_contents($filename);
  33. $out = preg_replace($search, $replace, $document);
复制代码
也可以使用php的内置函数strip_tags()清除html,js,注释等标记

以上内容希望对大家有帮助





欢迎光临 黑帽联盟 (https://bbs.cnblackhat.com/) Powered by Discuz! X2.5