网页html文本,有转义字符如:<(小于号<) 、 >(大于号>) 、 (空格)等,这些因为html上有特定的含义,需要转义成其他输入字符。 更多的可见下文截图: 最终我们还原后,应该得到下面的文本才是想要的。 二、Unicode格式文本 我们采集到的数据中,可能会是以下展示的样式,非英文、数字的比如中文,用了Unicode字符表示(\...
Unicode与中文互转|16进制Unicode编码在线转换|反斜杠u(\u)编码|Java转义字符还原-站长工具 http://www.msxindl.com/tools/unicode16.asp