变量

var 声明语句可以创建一个特定类型的变量,然后给变量附加一个名字,并且设置变量的初始值。变量声明的一般语法如下:

var 变量名字 类型 = 表达式

其中“类型”或“= 表达式”两个部分可以省略其中的一个。如果省略的是类型信息,那么将根据初始化表达式来推导变量的类型信息。如果初始化表达式被省略,那么将用零值初始化该变量。 数值类型变量对应的零值是 0 ,布尔类型变量对应的零值是 false ,字符串类型对应的零值是空字符串,接口或引用类型(包括 slice 、指针、 mapchan 和 函数)变量对应的零值是 nil 。数组或结构体等聚合类型对应的零值是每个元素或字段都是对应该类型的零值。

零值初始化机制可以确保每个声明的变量总是有一个良好定义的值,因此在 Go 语言中不存在未初始化的变量。这个特性可以简化很多代码,而且可以在没有增加额外工作的前提下确保边界条件下的合理行为。例如:

var s string
fmt.Println(s) // ""

这段代码将打印一个空字符串,而不是导致错误或产生不可预知的行为。Go 语言程序员应该让一些聚合类型的零值也具有意义,这样可以保证不管任何类型的变量总是有一个合理有效的零值状态。

也可以在一个声明语句中同时声明一组变量,或用一组初始化表达式声明并初始化一组变量。如果省略每个变量的类型,将可以声明多个类型不同的变量(类型由初始化表达式推导):

var i, j, k int                 // int, int, int
var b, f, s = true, 2.3, "four" // bool, float64, string

初始化表达式可以是字面量或 任意的表达式 。在包级别声明的变量会在 main 入口函数执行前完成初始化(§2.6.2),局部变量将在声明语句被执行到的时候完成初始化。

一组变量也可以通过调用一个函数,由函数返回的多个返回值初始化:

var f, err = os.Open(name) // os.Open returns a file and an error

简短变量声明

在函数内部,有一种称为简短变量声明语句的形式可用于声明和初始化 局部变量 ( 包级变量不能使用简短声明变量 )。它以 “名字 := 表达式” 形式声明变量,变量的类型根据表达式来自动推导。下面是 lissajous 函数中的三个简短变量声明语句(§1.4):

anim := gif.GIF{LoopCount: nframes}
freq := rand.Float64() * 3.0
t := 0.0

因为简洁和灵活的特点,简短变量声明被广泛用于大部分的局部变量的声明和初始化var 形式的声明语句往往是用于需要显式指定变量类型的地方,或者因为变量稍后会被重新赋值而初始值无关紧要的地方。

i := 100                  // an int
var boiling float64 = 100 // a float64
var names []string
var err error
var p Point

var 形式声明语句一样,简短变量声明语句也可以用来声明和初始化一组变量:

i, j := 0, 1

但是这种同时声明多个变量的方式应该限制只在可以提高代码可读性的地方使用,比如 for 语句的循环的初始化语句部分。

请记住 “:=” 是一个变量声明语句,而 “=” 是一个变量赋值操作。也不要混淆多个变量的声明和元组的多重赋值(§2.4.1),后者是将右边各个表达式的值赋值给左边对应位置的各个变量:

i, j = j, i // 交换 i 和 j 的值

和普通 var 形式的变量声明语句一样,简短变量声明语句也可以用函数的返回值来声明和初始化变量,像下面的 os.Open 函数调用将返回两个值:

f, err := os.Open(name)
if err != nil {
    return err
}
// ...use f...
f.Close()

这里有一个比较微妙的地方:简短变量声明左边的变量可能并不是全部都是刚刚声明的。如果有一些已经在相同的词法域声明过了(§2.7),那么简短变量声明语句对这些已经声明过的变量就只有赋值行为了。

在下面的代码中,第一个语句声明了 inerr 两个变量。在第二个语句只声明了 out 一个变量,然后对已经声明的 err 进行了赋值操作。

in, err := os.Open(infile)
// ...
out, err := os.Create(outfile)

简短变量声明语句中必须至少要声明一个新的变量,下面的代码将不能编译通过:

f, err := os.Open(infile)
// ...
f, err := os.Create(outfile) // compile error: no new variables

解决的方法是第二个简短变量声明语句改用普通的多重赋值语句。

简短变量声明语句只有对已经在同级词法域声明过的变量才和赋值操作语句等价,如果变量是在外部词法域声明的,那么简短变量声明语句将会在当前词法域重新声明一个新的变量。我们在本章后面将会看到类似的例子。

指针

一个变量对应一个保存了变量对应类型值的内存空间。普通变量在声明语句创建时被绑定到一个变量名,比如叫 x 的变量,但是还有很多变量始终以表达式方式引入,例如 x[i] 或 x.f 变量。所有这些表达式一般都是读取一个变量的值,除非它们是出现在赋值语句的左边,这种时候是给对应变量赋予一个新的值。

一个指针的值是另一个变量的地址。一个指针对应变量在内存中的存储位置。并不是每一个值都会有一个内存地址,但是对于每一个变量必然有对应的内存地址。通过指针,我们可以直接读或更新对应变量的值,而不需要知道该变量的名字(如果变量有名字的话)。

如果用 “var x int” 声明语句声明一个 x 变量,那么 &x 表达式(取 x 变量的内存地址)将产生一个指向该整数变量的指针,指针对应的数据类型是 *int ,指针被称之为“指向 int 类型的指针”。如果指针名字为 p ,那么可以说 “p 指针指向变量 x”,或者说 “p 指针保存了 x 变量的内存地址” 。同时 *p 表达式对应 p 指针指向的变量的值。一般 *p 表达式读取指针指向的变量的值,这里为 int 类型的值,同时因为 *p 对应一个变量,所以该表达式也可以出现在赋值语句的左边,表示更新指针所指向的变量的值。

x := 1
p := &x         // p, of type *int, points to x
fmt.Println(*p) // "1"
*p = 2          // equivalent to x = 2
fmt.Println(x)  // "2"

对于聚合类型每个成员——比如结构体的每个字段、或者是数组的每个元素——也都是对应一个变量,因此可以被取地址。

变量有时候被称为可寻址的值。即使变量由表达式临时生成,那么表达式也必须能接受 & 取地址操作。

任何类型的指针的零值都是 nil 。如果 p 指向某个有效变量,那么 p != nil 测试为真。指针之间也是可以进行相等测试的,只有当它们指向同一个变量或全部是 nil 时才相等。

var x, y int
fmt.Println(&x == &x, &x == &y, &x == nil) // "true false false"

在 Go 语言中,返回函数中局部变量的地址也是安全的。例如下面的代码,调用 f 函数时创建局部变量 v ,在局部变量地址被返回之后依然有效,因为指针 p 依然引用这个变量。

var p = f()

func f() *int {
    v := 1
    return &v
}

每次调用 f 函数都将返回不同的结果:

fmt.Println(f() == f()) // "false"

因为指针包含了一个变量的地址,因此如果将指针作为参数调用函数,那将可以在函数中通过该指针来更新变量的值。例如下面这个例子就是通过指针来更新变量的值,然后返回更新后的值,可用在一个表达式中(译注:这是对 C 语言中 ++v 操作的模拟,这里只是为了说明指针的用法,incr 函数模拟的做法并不推荐):

func incr(p *int) int {
    *p++ // 非常重要:只是增加p指向的变量的值,并不改变p指针!!!
    return *p
}

v := 1
incr(&v)              // side effect: v is now 2
fmt.Println(incr(&v)) // "3" (and v is 3)

每次我们对一个变量取地址,或者复制指针,我们都是为原变量创建了新的别名。例如,*p 就是变量 v 的别名。指针特别有价值的地方在于我们可以不用名字而访问一个变量,但是这是一把双刃剑:要找到一个变量的所有访问者并不容易,我们必须知道变量全部的别名(译注:这是 Go 语言的垃圾回收器所做的工作)。不仅仅是指针会创建别名,很多其它引用类型也会创建别名,例如 slicemapchan ,甚至结构体、数组和接口都会创建所引用变量的别名。

指针是实现标准库中 flag 包的关键技术,它使用命令行参数来设置对应变量的值,而这些对应命令行标志参数的变量可能会零散分布在整个程序中。为了说明这一点,在早些的 echo 版本中,就包含了两个可选的命令行参数: -n 用于忽略行尾的换行符,-s sep 用于指定分隔字符(默认是空格)。下面这是第四个版本,对应包路径为 gopl.io/ch2/echo4 。

ch2/echo4.go
Unresolved include directive in modules/ROOT/pages/ch2/ch2-03.adoc - include::example$/ch2/echo4/main.go[]

调用 flag.Bool 函数会创建一个新的对应布尔型标志参数的变量。它有三个属性:第一个是命令行标志参数的名字 “n” ,然后是该标志参数的默认值(这里是 false ),最后是该标志参数对应的描述信息。如果用户在命令行输入了一个无效的标志参数,或者输入 -h-help 参数,那么将打印所有标志参数的名字、默认值和描述信息。类似的,调用 flag.String 函数将创建一个对应字符串类型的标志参数变量,同样包含命令行标志参数对应的参数名、默认值、和描述信息。程序中的 sepn 变量分别是指向对应命令行标志参数变量的指针,因此必须用 *sep*n 形式的指针语法间接引用它们。

当程序运行时,必须在使用标志参数对应的变量之前先调用 flag.Parse 函数,用于更新每个标志参数对应变量的值(之前是默认值)。对于非标志参数的普通命令行参数可以通过调用 flag.Args() 函数来访问,返回值对应一个字符串类型的 slice 。如果在 flag.Parse 函数解析命令行参数时遇到错误,默认将打印相关的提示信息,然后调用 os.Exit(2) 终止程序。

让我们运行一些 echo 测试用例:

$ go build gopl.io/ch2/echo4
$ ./echo4 a bc def
a bc def
$ ./echo4 -s / a bc def
a/bc/def
$ ./echo4 -n a bc def
a bc def$
$ ./echo4 -help
Usage of ./echo4:
  -n    omit trailing newline
  -s string
        separator (default " ")

new函数

另一个创建变量的方法是调用内建的 new 函数。表达式 new(T) 将创建一个 T 类型的匿名变量,初始化为 T 类型的零值,然后返回变量地址,返回的指针类型为 *T

p := new(int)   // p, *int 类型, 指向匿名的 int 变量
fmt.Println(*p) // "0"
*p = 2          // 设置 int 匿名变量的值为 2
fmt.Println(*p) // "2"

用 new 创建变量和普通变量声明语句方式创建变量没有什么区别,除了不需要声明一个临时变量的名字外,我们还可以在表达式中使用 new(T) 。换言之,new 函数类似是一种语法糖,而不是一个新的基础概念。

下面的两个 newInt 函数有着相同的行为:

func newInt() *int {
    return new(int)
}

func newInt() *int {
    var dummy int
    return &dummy
}

每次调用 new 函数都是返回一个新的变量的地址,因此下面两个地址是不同的:

p := new(int)
q := new(int)
fmt.Println(p == q) // "false"

当然也可能有特殊情况:如果两个类型都是空的,也就是说类型的大小是 0 ,例如 struct{}[0]int ,有可能有相同的地址(依赖具体的语言实现)。

译注:请谨慎使用大小为 0 的类型,因为如果类型的大小为 0 的话,可能导致 Go 语言的自动垃圾回收器有不同的行为,具体请查看 runtime.SetFinalizer 函数相关文档

new 函数使用通常相对比较少,因为对于结构体来说,直接用字面量语法创建新变量的方法会更灵活([§4.4.1])。

由于 new 只是一个预定义的函数,它并不是一个关键字,因此我们可以将 new 名字重新定义为别的类型。例如下面的例子:

func delta(old, new int) int { return new - old }

由于 new 被定义为 int 类型的变量名,因此在 delta 函数内部是无法使用内置的 new 函数的。

变量的生命周期

变量的生命周期指的是在程序运行期间变量有效存在的时间段。对于在 包一级声明的变量 来说,它们的生命周期和整个程序的运行周期是一致的。而相比之下,局部变量的生命周期则是动态的:每次从创建一个新变量的声明语句开始,直到该变量不再被引用为止,然后变量的存储空间可能被回收。函数的参数变量和返回值变量都是局部变量。它们在函数每次被调用的时候创建。

例如,下面是从 1.4 节的 Lissajous 程序摘录的代码片段:

for t := 0.0; t < cycles*2*math.Pi; t += res {
    x := math.Sin(t)
    y := math.Sin(t*freq + phase)
    img.SetColorIndex(size+int(x*size+0.5), size+int(y*size+0.5),
        blackIndex)
}

译注:函数的右小括弧也可以另起一行缩进,同时为了防止编译器在行尾自动插入分号而导致的编译错误,可以在末尾的参数变量后面显式插入逗号。

像下面这样:

for t := 0.0; t < cycles*2*math.Pi; t += res {
    x := math.Sin(t)
    y := math.Sin(t*freq + phase)
    img.SetColorIndex(
        size+int(x*size+0.5), size+int(y*size+0.5),
        blackIndex, // 最后插入的逗号不会导致编译错误,这是Go编译器的一个特性
    )               // 小括弧另起一行缩进,和大括弧的风格保存一致
}

在每次循环的开始会创建临时变量 t ,然后在每次循环迭代中创建临时变量 x 和 y 。

那么 Go 语言的自动垃圾收集器是如何知道一个变量是何时可以被回收的呢?这里我们可以避开完整的技术细节,基本的实现思路是,从每个包级的变量和每个当前运行函数的每一个局部变量开始,通过指针或引用的访问路径遍历,是否可以找到该变量。如果不存在这样的访问路径,那么说明该变量是不可达的,也就是说它是否存在并不会影响程序后续的计算结果。

因为一个变量的有效周期只取决于是否可达,因此一个循环迭代内部的局部变量的生命周期可能超出其局部作用域。同时,局部变量可能在函数返回之后依然存在。

编译器会自动选择在栈上还是在堆上分配局部变量的存储空间,但可能令人惊讶的是,这个选择并不是由用 var 还是 new 声明变量的方式决定的。

var global *int

func f() {
    var x int
    x = 1
    global = &x
}

func g() {
    y := new(int)
    *y = 1
}

f 函数里的 x 变量必须在堆上分配,因为它在函数退出后依然可以通过包一级的 global 变量找到,虽然它是在函数内部定义的;用 Go 语言的术语说,这个 x 局部变量从函数 f 中逃逸了。相反,当 g 函数返回时,变量 *y 将是不可达的,也就是说可以马上被回收的。因此,*y 并没有从函数 g 中逃逸,编译器可以选择在栈上分配 *y 的存储空间(译注:也可以选择在堆上分配,然后由 Go 语言的 GC 回收这个变量的内存空间),虽然这里用的是 new 方式。其实在任何时候,你并不需为了编写正确的代码而要考虑变量的逃逸行为,要记住的是,逃逸的变量需要额外分配内存,同时对性能的优化可能会产生细微的影响。

Go 语言的自动垃圾收集器对编写正确的代码是一个巨大的帮助,但也并不是说你完全不用考虑内存了。你虽然不需要显式地分配和释放内存,但是要编写高效的程序你依然需要了解变量的生命周期。例如,如果将指向短生命周期对象的指针保存到具有长生命周期的对象中,特别是保存到全局变量时,会阻止对短生命周期对象的垃圾回收(从而可能影响程序的性能)。