汉字转unicode(怎么将汉字转换成unicode)
本文目录
- 怎么将汉字转换成unicode
- 各位大侠: 在linux下如何用C实现汉字转unicode码比如:“中国”转成“5E5D 66EF”,在线等~~
- 怎么把汉字转换成unicode编码
- 汉字转Unicode怎么用,如何配合CE使用
- VB中如何将汉字转换为Unicode代码
- JAVA程序,从键盘输入汉字,并将汉子转换为相应的unicode编码,怎么写啊
- java怎么把汉字转化成unicode编码
- 如何在vb中将汉字转化成unicode
- 请问如何用C语言实现汉字,和Unicode编码的转换
- 汉字转换Unicode的工作原理是什么
怎么将汉字转换成unicode
unicode编码不需要转换成汉字,因为unicode就是和字符关联的终极编码。windows中只有unicode码可以和字符直接关联,也就是使用国际标准的unicode字符集。中文windowsXp默认的内码是gbk(装过gb18030补丁的话也就变成gb18030),日文系统就是JIS,不同语言版本的windows都有不同的默认内码,这是每个国家的标准化管理局规定的。然后就是页码表的概念,所谓页码表就是把一个用系统默认编码(比如gbk,gb2312)表示的字符映射到对应unicode编码,而每个unicode编码对应着唯一确定的字符。这样就完成了地域性编码到国际标准码再到字符的对应关系。在控制面板-》区域和语言选择-》高级,里面可以看到window提供的所有页码表。
各位大侠: 在linux下如何用C实现汉字转unicode码比如:“中国”转成“5E5D 66EF”,在线等~~
/* Copyright (C) 2010 by Xingyou Chen 《niatlantice@gmail.com》
*
* Test OS is Debian squeese AMD64 , source file stored in UTF-8
* If another encoding is used, this program may fail
*/
#include 《stdio.h》 /* printf() from here */
int main()
{
int i = 0; /* for loop */
char orig = “中国“; /* demo text, Chinese char is 3 byte long */
unsigned short dest; /* two 2-byte variable */
for(i = 0; i 《 2; i++)
{ /* Don’t understand? See UTF-8 and Unicode encoding */
dest & 0x1F) 《《 12;
dest & 0x3F) 《《 6;
dest & 0x3F);
printf(“%x“, dest);
}
printf(“\n“);
return 0;
}
====================================================
“中国”: UTF-8 e4b8ad e59bbd Unicode 4e2d 56fd
你给出的那个编码该是不正确的。这里只做了UTF-8到UCS-2的转换,
中文编码不少,没功夫全写出来(也写不全),UTF-8是我平时用的。
在开源环境中,这个根本不是问题,可以参考zh-a
怎么把汉字转换成unicode编码
unicode编码不需要转换成汉字,因为unicode就是和字符关联的终极编码。
windows中只有unicode码可以和字符直接关联,也就是使用国际标准的unicode字符集。
中文windowsXp默认的内码是gbk(装过gb18030补丁的话也就变成gb18030),日文系统就是JIS,不同语言版本的windows都有不同的默认内码,这是每个国家的标准化管理局规定的。
然后就是页码表的概念,所谓页码表就是把一个用系统默认编码(比如gbk,gb2312)表示的字符映射到对应unicode编码,而每个unicode编码对应着唯一确定的字符。这样就完成了地域性编码到国际标准码再到字符的对应关系。
在控制面板-》区域和语言选择-》高级,里面可以看到window提供的所有页码表。
汉字转Unicode怎么用,如何配合CE使用
汉字转Unicode,有一个简单的办法,就是利用记事本的功能,先将汉字拷贝到记事本上,然后【文件】→【另存为】→【文件名】取新文件名→【编码】选“Unicode”→【保存】即完成转换。
VB中如何将汉字转换为Unicode代码
回答补充: 用Chr()函数把ascii码转化成汉字
用ChrW()函数把Unicode码转化成汉字
(还有之前说的
AscW()函数返回值为负的时候,应加上65536 才得到汉字实际的Unicode码)
----------------------------------------------------------------------------------------
求汉字的Unicode代码 用AscW()函数
AscW(“汉“)=27721
求汉字的ASCII码 用Asc()函数 返回一个负数值
如Asc(“汉“)=-17734
PS:PS:改进了下 可转化多个汉字
在窗体上建三个text控件,
功能:text1中按个输入汉字后 text2中按个显示汉字的Unicode代码 text3中显示汉字的ASCII码
原代码如下:
Private Function change(s As String) As String
change = AscW(s)
If change 《 0 Then
change = change + 65536
End If
End Function
Private Function change2(s As String) As String
change2 = Asc(s)
End Function
Private Sub Text1_Change()
For i = 1 To Len(Text1.Text)
s = s & change(Mid(Text1.Text, i, 1)) & “ “
Next
Text2.Text = s
s = ““
For i = 1 To Len(Text1.Text)
s = s & change2(Mid(Text1.Text, i, 1)) & “ “
Next
Text3.Text = s
End Sub
补充:a 的ASCII码是97
Asc函数返回的是字符串首字母的ASCII码(如字符串只一个字符,即返回该字符的ASCII码)
Asc 函数
返回一个 Integer,代表字符串中首字母的字符代码。
语法
Asc(string)
必要的 string 参数可以是任何有效的字符串表达式。如果 string 中没有包含任何字符,则会产生运行时错误。
PSPS: VB里 目前我还没找到能将之转换成 把汉字转换成西欧文编码的函数 不敢断言没有(有估计也很难找 我搜了好多关键字都没找到)
还有 不只是遨游浏览器,一般的IE浏览器 也有此功能
查看——编码——其他——最下面那小三角号——西欧(ISO)
JAVA程序,从键盘输入汉字,并将汉子转换为相应的unicode编码,怎么写啊
上代码:
import java.util.Scanner;
public class Main {
public static void main(String args) {
Scanner sc = new Scanner(System.in);
System.out.println(“请输入汉字:“);
String input = sc.nextLine();
if (input.length() == 0) {
System.out.println(“输入错误“);
return;
}
System.out.println(“汉字转unicode结果:“);
char chars = input.toCharArray();
for (int i = 0; i 《 chars.length; i++) {
String unicode = Integer.toHexString(chars);
if (unicode.length() 《= 2) {
// 不足四位前面加0补齐
unicode = “00“ + unicode;
}
unicode = “\\u“ + unicode;
System.out.println(chars + “: “ + unicode);
}
}
}
java怎么把汉字转化成unicode编码
中文转换成Unicode编码和Unicode编码转换成中文
import java.util.Properties;
public class Test {
public static void main(String args) {
String s = “简介“;
String tt = gbEncoding(s); // String tt1 = “你好“;
System.out.println(decodeUnicode(“\\u7b80\\u4ecb“)); // System.out.println(decodeUnicode(tt1));
System.out.println(HTMLDecoder.decode(“中国“));
String s1 = “\u7b80\u4ecb“;
System.out.println(s.indexOf(“\\“));
}
public static String gbEncoding(final String gbString) {
char utfBytes = gbString.toCharArray();
String unicodeBytes = ““;
for (int byteIndex = 0; byteIndex 《 utfBytes.length; byteIndex++) {
String hexB = Integer.toHexString(utfBytes);
if (hexB.length() 《= 2) {
hexB = “00“ + hexB;
}
unicodeBytes = unicodeBytes + “\\u“ + hexB;
}
System.out.println(“unicodeBytes is: “ + unicodeBytes);
return unicodeBytes; }
public static String decodeUnicode(final String dataStr) {
int start = 0;
int end = 0;
final StringBuffer buffer = new StringBuffer();
while (start 》 -1) {
end = dataStr.indexOf(“\\u“, start + 2);
String charStr = ““;
if (end == -1) {
charStr = dataStr.substring(start + 2, dataStr.length());
} else {
charStr = dataStr.substring(start + 2, end);
}
char letter = (char) Integer.parseInt(charStr, 16); // 16进制parse整形字符串。
buffer.append(new Character(letter).toString());
start = end;
}
return buffer.toString();
} }
}
}
}
如何在vb中将汉字转化成unicode
VB本身就是使用Unicode编码格式的,只要能在VB中正常显示出来的字符串都肯定是Unicode编码的。如果要把ANSI格式的字符串(在VB直接显示会出现乱码)转化为Unicode,可以这样(假定变量s储存的就是要转换的字符串):
s = StrConv(s, vbUnicode)
请问如何用C语言实现汉字,和Unicode编码的转换
字转换:wctomb、mbtowc,wc 指 Wide charactor,mb 指 Multi-byte。
字符串转换:wcstombs、mbstowcs,wcs 和 mbs 的 s 指 string。
这 4 个函数是 C 标准函数库函数中的。如果只是在 Windows 平台下编程,可直接调用 Windows API 函数 WideCharToMultiByte 和 MultiByteToWideChar 实现。但是如果调用标准库函数的话,在 Linux 下也是有效的。调用标准库函数,首先必须包含 locale.h 并调用 setlocale(LC_ALL, ““) 后才能正确转换。Windows 下的 Multi-byte 是 ANSI 编码的,Wide charactor 是 Unicode (UTF-16) 编码,而 Linux 下的 Multi-byte 是 UTF-8 编码的,Wide charactor 是 Unicode (UTF-32) 编码。
#include 《stdio.h》
#include 《stdlib.h》
#include 《locale.h》
int main(void)
{
char str;
wchar_t wstr = { 0x52B3, 0x788C, 0 };
setlocale(LC_ALL, ““);
wcstombs(str, wstr, sizeof(str)/sizeof(char));
printf(“%s“, str);
return 0;
}
汉字转换Unicode的工作原理是什么
你的问题应该是。
GB2312,GBK,GB18030字符表的内码,与unicode的内码转化问题。
UTF是unicode是内码的存储实现方式,他们之间的转换,存在一个转化的算法。
GB2312,GBK,GB18030的内码与unicode的转换不存在一个这样的算法,只能逐个对照字符表。
近期看的资料,资料太多,来源记不清楚了。
GB2312,GBK,的汉字和全角符号都是用两个自己字节的编码来存储的。也叫双字节编码方案。
GB18030是多字节字符集,它的字符可以用一个、两个或四个字节表示。
UTF-8,汉字可以两个字节,三个字节,四个字节,的编码来存储。
参考资料
GB18030编码研究以及GBK、GB18030与Unicode的映射
http://blog.csdn.net/fmddlmyy/article/details/2288312
更多文章:
厦门小鱼网的具体地址在哪据说是在软件园二期有没有人知道具体方位?厦门小鱼网怎么发帖
2024年5月8日 08:24
谣言止于智者(谣言止于智者下一句是什么 谣言止于智者出处介绍)
2023年9月27日 03:20
缺火的男孩名字大全(命中缺火的男孩名字 起名缺火男孩名字大全)
2023年10月23日 08:00
直播 荷兰vs厄瓜多尔的比赛结果(荷兰vs厄瓜多尔结束了吗)
2023年10月13日 11:20
磁力吧ciliba(把条形磁铁落入不闭合的线圈内部时机械能守恒吗)
2023年10月30日 10:20
加拿大安大略省有哪些城市?温哥华的富有城市有哪些,除了西温地区或者比较富有,经济比较好的城市
2024年5月11日 15:01