出售本站【域名】【外链】

乱码问题解决之“锟斤拷”

文章正文
发布时间:2024-08-27 05:19

技术总编:薛 本

乱码是咱们正在用stata读入文件时常常会显现并且令人头疼的问题,当咱们舛错界说了读入文件的编码时,就可能显现一些非凡的乱码问题。原日为各人引见此中一种比较常见的乱码问题----“锟斤拷”及其处置惩罚惩罚办法。

“锟斤拷”是一串常常正在搜寻引擎页面和其余网站上看到的乱码字符,如下图所示的某个单位雇用信息中,联络人和联络人职位两项,就无奈被准确识别出来。

“锟斤拷”源自于GBK字符集和Unicode字符集之间的转换问题。正在Unicode和本有编码体系的转化历程中,有一些字符用Unicode是无奈默示的,Unicode官方用了一个占位符来默示那些无奈默示的字符,那个字符用unicode转义字符默示为ufffd,对应的utf-8编码为“EFBFBD”。假如那个编码重复两次,而后放到GBK/GB2312/GB18030的环境中显示时,一个汉字占据2个字节,最末的结果便是:锟斤拷——锟(EFBF),斤(BDEF),拷(BFBD)。

举一个简略的例子来评释那种乱码问题。

首先从国泰安数据库高下载一个CSx格局的资产欠债表,用import delimited号令读入,并设置读入文件的编码为utf-8。步调如下:

clear

importdelimited using 资产欠债表.csZZZ, encoding( "utf-8")

可以看到变质stkcd的标签显现了乱码。