Go语言开发-字符串-比较字符串

3.2.比较字符串

如前所述，Go语言字符串支持常规的比较操作符（<、<=、==、!=、>、>=），参见表2.3。比较操作符在内存中是逐字节的比较字符串。比较操作可以直接使用，例如，比较两个字符串是否相等，也可以间接使用，例如，对已经排好序的[]string使用<操作符比较其含有的字符串。遗憾的是，执行比较操作时可能会出现3个问题，这3个问题困扰着每个使用Unicode编码字符串的编程语言，这些问题折磨每种编程语言使用 Unicode 字符串，Go语言和它们并没有什么不同。

第一个问题是，有些Unicode编码的字符由两个或者多个不同的字节序列来表示。例如，字符Å可以是Ångström符号中的字符，或只是字符A上面带个圆圈，这两者在视觉上往往是无法区分的。Ångström符号的Unicode码点是U+212B，但是上面带有圆圈的A字符可以使用一个Unicode码点U+00C5或两个Unicode码点U+0041 (A) 和U+030A（结合上面的圆圈）来表示。按照UTF-8编码，Ångström符号由字节[0xE2，0x84，0xAB]表示，字符Å由字节[0xC3,0x85]表示，带有圆圈的A字符则由字节[0x41,0xCC,0x81]表示。当然，从用户的角度来看，在比较和排序时，两个Å字符应该是相等的，而无需关心其底层字节如何表示。

第一个问题并不如我们想象中的那么严重，因为Go语言中所有的UTF -8字节序列（即字符串）都是将字节映射到相同的码点。这意味着，例如，Go语言中字符或字符串常量中的é字符总是由相同的字节表示。当然，如果我们只考虑ASCII字符（即英语），这个问题就不会出现。即使当我们处理非ASCII字符时，这个问题也只有在当我们处理两个看起来一样但实际不同的字符时，或当我们从程序外部读取UTF-8字节时才会出现，读取的UTF-8字节具有合法UTF-8编码，但却不同于Go语言中的。如果这真的被证明是一个问题，我们可以编写一个自定义的标准化函数来确保，例如，总是将é字符以字节[0xC3,0xA9]表示（Go语言原生支持），而不是使用[0x65,0xCC,0x81]（即e和´组合起来的字符）来表示。Unicode标准格式文档（unicode.org/reports/tr15）中有对标准化Unicode编码字符的解释。撰写本文时，Go语言标准库提供了一个实验性的标准化包(exp/norm)。

第一个问题只有在读取外部字符且与Go语言的码点-字节映射不同时才会发生，这个可以通过分离处理外部字符的代码来解决。该代码可以将读取到的字符在提供给程序之前将其标准化。

第二个问题是，有些情况下用户可能会希望把不同的字符视为相等的。例如，我们编写了一个具有文本搜索功能的程序且用户输入了单词“file”。当然，用户会希望搜索到所有包含“file”的结果；但他们也同样希望搜索到所有与“file”（即fi与le以连字符连接）匹配的结果。类似地，用户搜索“5”时可能希望可以搜索到“5”、“⁵”、“₅”、甚至是“➄”。与第一个问题一样，可以通过使用一些标准工作来解决。

第三个问题是，有些字符的排序是与语言相关的。举例来说，瑞典语中ä排在z的后面，德国电话簿中ä被拼写成ae，而在德国字典中则被拼写成a。再举个例子，虽然在英文中我们在排序时将ø当作o，但在丹麦语和挪威语中它排在z的后面。在这方面有很多的规则，有时应用程序被不同国家的人使用（因此会有不同的排序规则），有时字符串中含有多种语言（如一些是西班牙语，其它是英语），某些字符（如箭头、修饰符以及数学符号）实际上就没有排序的意义，基于以上这些，排序规则本就是很复杂的。

从好的方面来说，Go语言对字符串逐字节比较的方式是借鉴于英文的ASCII排序方式。如果我们将要比较的字符串转换成全部小写或者全部大写，我们可以得到一个更自然的英语语言顺序。

作者：Johnson

原文：Go语言开发-字符串-比较字符串

出处：青梅酒博客 – Plum Wine Blog

赏

go, golang, program, 代码, 开发, 技术, 程序员, 编程

Plum Wine Blog

Welcome the guests from afar, please drink a cup of plum wine

3.2.比较字符串

发表回复取消回复

3.2.比较字符串

推荐阅读：

发表回复 取消回复

发表回复取消回复