乱码问题解决之“锟斤拷”

文章正文

发布时间：2024-08-27 05:19

技术总编：薛本

乱码是咱们正在用stata读入文件时常常会显现并且令人头疼的问题，当咱们舛错界说了读入文件的编码时，就可能显现一些非凡的乱码问题。原日为各人引见此中一种比较常见的乱码问题----“锟斤拷”及其处置惩罚惩罚办法。

“锟斤拷”是一串常常正在搜寻引擎页面和其余网站上看到的乱码字符，如下图所示的某个单位雇用信息中，联络人和联络人职位两项，就无奈被准确识别出来。

“锟斤拷”源自于GBK字符集和Unicode字符集之间的转换问题。正在Unicode和本有编码体系的转化历程中，有一些字符用Unicode是无奈默示的，Unicode官方用了一个占位符来默示那些无奈默示的字符，那个字符用unicode转义字符默示为ufffd，对应的utf-8编码为“EFBFBD”。假如那个编码重复两次，而后放到GBK/GB2312/GB18030的环境中显示时，一个汉字占据2个字节，最末的结果便是：锟斤拷——锟(EFBF)，斤(BDEF)，拷(BFBD)。

举一个简略的例子来评释那种乱码问题。

首先从国泰安数据库高下载一个CSx格局的资产欠债表，用import delimited号令读入，并设置读入文件的编码为utf-8。步调如下:

clear

importdelimited using 资产欠债表.csZZZ, encoding( "utf-8")

可以看到变质stkcd的标签显现了乱码。

出售本站【域名】【外链】

乱码问题解决之“锟斤拷”

合作伙伴