Java二进制操作指南

移位

位运算中大多数操作都是向左移位和向右移位。在Java中，这对应着<<和>>这两个操作符，示例如下：

/\* 00000001 << 1 = 00000010 \*/
1 << 1 == 2 
 
/\* 00000001 << 3 = 00001000 \*/
1 << 3 == 8
 
/\* 11111111 11111111 11111111 11110000 >> 4 = 11111111 11111111 11111111 11111111 \*/
0xFFFFFFF0 >> 4 == 0xFFFFFFFF 
 
/\* 00001111 11111111 11111111 11111111 >> 4 = 00000000 11111111 11111111 11111111 \*/
0x0FFFFFFF >> 4 == 0x00FFFFFF

注意：向右移位是有符号操作符。和许多语言一样，Java使用最高位来表示数值的正负，负数的最高位永远为1。一个以1开头的二进制数移位后还将以1开头，一个以0开头的二进制树移位后还将以0开头。所以要小心：Java是可以在整数中进行位运算的。

你可以使用叫作“无符号右移”运算符的第三个操作符：>>> 来实现以“0”填充的移位，这种移位会忽略符号位并总是用“0”来填充。

/\* 10000000 00000000 00000000 00000000 >>> 1 = 01000000 00000000 00000000 00000000 \*/
0x80000000 >>> 1 == 0x40000000
 
/\* 10000000 00000000 00000000 00000000 >> 1 = 11000000 00000000 00000000 00000000 \*/
0x80000000 >> 1  == 0xC0000000

最大的用途之一是迅速求2的幂。1向左移位1位是2，移2位是4，移3位是8…… 相似的，向右移1位相当于是把该数除以2。

另一个用途便是创建掩码。位掩码可用于屏蔽或者修改一个二进制数中的某些指定位，下一部分会进行详细讲解。假如我们想要创建一个
_00001000_的掩码，代码十分简单：

int bitmask = 1 << 3;

你可以使用位运算操作符来创建更复杂的掩码，下一部分同样会讲解位运算操作符。

位运算操作符

以下是Java中四个常见的位操作符：

~ – 按位取反
& – 按位与
~ – 按位异或
| – 按位或

简单应用如下（简单起见，只展示二进制）

1010 & 0101 == 0000
1100 & 0110 == 0100
 
1010 | 0101 == 1111
1100 | 0110 == 1110
 
~1111 == 0000
~0011 == 1100
 
1010 ^ 0101 == 1111
1100 ^ 0110 == 1010

比如，你可以通过“或”运算，把一个二进制数上的指定位“设置”为1，并且不会影响到其他位。

10000001 | 00100000 = 10100001 /\* 第五位设为1 \*/
10000001 | 1 << 5 = 10100001 /\* 同样作用 \*/
00000000 | 1 << 2 | 1 << 5 = 00100100

有些技巧可以让你在写的时候免去分支判断，我就不在这里描述了，你可以自己看看。

如果你想要选择性的把某位设为0，你可以让数与一个全1但是某位为0的数相与。

01010101 & ~(1<<2) == 01010101 & 11111011 == 01010001

关于位顺序

假设最高位是在左边：

10010110
^      ^
|      |------- 第 0 位
|
|-------------- 第 7 位

注意，第0位的值是2^0，第一位是2^1，……，第7位的值是2^7。

使用ParseInt

在你的代码里操作二进制数字的便利方法是使用_Integer.parseInt()方法。_Integer.parseInt(“101″,2)__代表着把二进制数101转换为十进制数（5）。这意味着，利用这个方法你甚至可以在for循环里使用二进制数字：

/\* 从5到15的循环 \*/
for (int b = Integer.parseInt("0101",2); b <= Integer.parseInt("1111",2); b++) {
    /\* 做些什么 \*/
}

位读写

建议：自己实现一个用来把二进制位（比特）转换为流并读写的类，尽量不要使用Java的输入输出流，因为Java的流只能按字节操作。你会觉得“给我接下来的N个比特”和“把指针往前移M位”这种功能是非常实用的。比如，你可以读取足够的数据来确定最长的霍夫曼编码的长度，当你得到你刚刚读取的霍夫曼编码的实际长度之后，你就可以把指针往前移相应长度。一个这样的类可以把位运算丑陋的一面划分成一个眼熟的代码块。

类似的，如果你追求速度的话，那你会意外的发现表查找是如此强大。假如你有一个霍夫曼编码以0开头，并且其他的编码长度均为3而且以1开头，这意味着你需要一个可以容纳8(2^3)个项的表格，你的表格可能是这样的：

char code\[8\];
int codelen\[8\];
 
code\[0\] = 'a'; codelen\[0\] = 1;
code\[1\] = 'a'; codelen\[1\] = 1;
code\[2\] = 'a'; codelen\[2\] = 1;
code\[3\] = 'a'; codelen\[3\] = 1;
code\[4\] = 'b'; codelen\[4\] = 3;
code\[5\] = 'c'; codelen\[5\] = 3;
code\[6\] = 'd'; codelen\[6\] = 3;
code\[7\] = 'e'; codelen\[7\] = 3;

通过两次查找，你就可以定位到你要找的字符，并且还可以知道下一个字符在前面多少位置。这可要比某些一遍遍的循环去查找全部字符要划算的多，也更节省内存。

课后作业：用代码实现以上表格的自动生成。想要更刺激的话，允许表格中的比特可变长。如果要查找的字符不在当前表，那就自动往下一个表去找，这是一种空间换时间的办法。

原文链接： sys.cs.rice.edu
译文链接： http://www.importnew.com/15060.html