7.3. 案例研究：罗马数字

在罗马数字中，有七个字符以各种方式重复和组合来表示数字。

I = 1
V = 5
X = 10
L = 50
C = 100
D = 500
M = 1000

以下是构造罗马数字的一些一般规则

字符是累加的。I 是 1，II 是 2，III 是 3。VI 是 6（字面意思是“5 加 1”），VII 是 7，VIII 是 8。
十位字符（I、X、C 和 M）可以重复最多三次。在 4 时，您需要从下一个更高的五位字符中减去。您不能将 4 表示为 IIII；相反，它表示为 IV（“比 5 少 1”）。数字 40 写作 XL（比 50 少 10），41 写作 XLI，42 写作 XLII，43 写作 XLIII，然后 44 写作 XLIV（比 50 少 10，然后比 5 少 1）。

类似地，在 9 时，您需要从下一个更高的十位字符中减去：8 是 VIII，但 9 是 IX（比 10 少 1），而不是 VIIII（因为 I 字符不能重复四次）。数字 90 是 XC，900 是 CM。五位字符不能重复。数字 10 总是表示为 X，而不是 VV。数字 100 总是 C，而不是 LL。罗马数字总是从高位写到低位，从左到右读取，因此字符的顺序非常重要。DC 是 600；CD 是一个完全不同的数字（400，比 500 少 100）。CI 是 101；IC 甚至不是一个有效的罗马数字（因为您不能直接从 100 中减去 1；您需要将其写成 XCIX，表示比 100 少 10，然后比 10 少 1）。

7.3.1. 检查千位如何验证任意字符串是否是有效的罗马数字？让我们逐位分析。由于罗马数字总是从高位写到低位，让我们从最高位开始：千位。对于 1000 及以上的数字，千位由一系列 M 字符表示。示例 7.3. 检查千位 >>> import re >>> pattern = '^M?M?M?$' >>> re.search(pattern, 'M') <SRE_Match object at 0106FB58> >>> re.search(pattern, 'MM') <SRE_Match object at 0106C290> >>> re.search(pattern, 'MMM') <SRE_Match object at 0106AA38> >>> re.search(pattern, 'MMMM') >>> re.search(pattern, '') <SRE_Match object at 0106F4A8> 此模式包含三个部分 ^ 仅匹配字符串开头的后续内容。如果未指定，则该模式将匹配 M 字符的任何位置，这不是您想要的。您要确保 M 字符（如果存在）位于字符串的开头。 M? 可选地匹配单个 M 字符。由于重复了三次，因此您要匹配连续的零到三个 M 字符。 $ 仅匹配字符串末尾的前置内容。与开头的 ^ 字符结合使用时，这意味着该模式必须匹配整个字符串，并且在 M 字符之前或之后没有其他字符。 re 模块的本质是 search 函数，它接受一个正则表达式 (pattern) 和一个字符串 ('M')，并尝试将字符串与正则表达式进行匹配。如果找到匹配项，则 search 返回一个对象，该对象具有描述匹配项的各种方法；如果未找到匹配项，则 search 返回 None，即 Python 的空值。您目前只关心模式是否匹配，这可以通过查看 search 的返回值来判断。'M' 匹配此正则表达式，因为第一个可选的 M 匹配，而第二个和第三个可选的 M 字符被忽略。 'MM' 匹配，因为第一个和第二个可选的 M 字符匹配，而第三个 M 被忽略。 'MMM' 匹配，因为所有三个 M 字符都匹配。 'MMMM' 不匹配。所有三个 M 字符都匹配，但是正则表达式坚持字符串必须结束（因为有 $ 字符），而字符串还没有结束（因为有第四个 M）。所以 search 返回 None。有趣的是，空字符串也匹配此正则表达式，因为所有 M 字符都是可选的。 7.3.2. 检查百位百位比千位更困难，因为根据其值，它可以用几种互斥的方式表示。 100 = C 200 = CC 300 = CCC 400 = CD 500 = D 600 = DC 700 = DCC 800 = DCCC 900 = CM 所以有四种可能的模式 CM CD 零到三个 C 字符（如果百位为 0，则为零） D，后跟零到三个 C 字符最后两种模式可以组合一个可选的 D，后跟零到三个 C 字符此示例显示了如何验证罗马数字的百位。示例 7.4. 检查百位 >>> import re >>> pattern = '^M?M?M?(CM|CD|D?C?C?C?)$' >>> re.search(pattern, 'MCM') <SRE_Match object at 01070390> >>> re.search(pattern, 'MD') <SRE_Match object at 01073A50> >>> re.search(pattern, 'MMMCCC') <SRE_Match object at 010748A8> >>> re.search(pattern, 'MCMC') >>> re.search(pattern, '') <SRE_Match object at 01071D98> 此模式的开头与前一个模式相同，检查字符串的开头 (^)，然后是千位 (M?M?M?)。然后是新部分，用括号括起来，它定义了一组三个互斥的模式，用竖线分隔：CM、CD 和 D?C?C?C?（这是一个可选的 D，后跟零到三个可选的 C 字符）。正则表达式解析器按顺序（从左到右）检查这些模式中的每一个，采用第一个匹配的模式，并忽略其余的。 'MCM' 匹配，因为第一个 M 匹配，第二个和第三个 M 字符被忽略，并且 CM 匹配（因此 CD 和 D?C?C?C? 模式甚至从未被考虑）。MCM 是 1900 的罗马数字表示形式。 'MD' 匹配，因为第一个 M 匹配，第二个和第三个 M 字符被忽略，并且 D?C?C?C? 模式匹配 D（三个 C 字符中的每一个都是可选的，并且被忽略）。MD 是 1500 的罗马数字表示形式。 'MMMCCC' 匹配，因为所有三个 M 字符都匹配，并且 D?C?C?C? 模式匹配 CCC（D 是可选的，并且被忽略）。MMMCCC 是 3300 的罗马数字表示形式。 'MCMC' 不匹配。第一个 M 匹配，第二个和第三个 M 字符被忽略，并且 CM 匹配，但是 $ 不匹配，因为您还没有到达字符串的末尾（您还有一个未匹配的 C 字符）。C不作为 D?C?C?C? 模式的一部分匹配，因为互斥的 CM 模式已经匹配。有趣的是，空字符串仍然匹配此模式，因为所有 M 字符都是可选的并且被忽略，并且空字符串匹配 D?C?C?C? 模式，其中所有字符都是可选的并且被忽略。呼！看到了吗？正则表达式可以很快变得多么复杂？而您只学习了罗马数字的千位和百位。但是，如果您理解了所有这些，那么十位和个位就很简单了，因为它们是完全相同的模式。但是，让我们看看另一种表达模式的方法。

	此模式包含三个部分 `^` 仅匹配字符串开头的后续内容。如果未指定，则该模式将匹配 `M` 字符的任何位置，这不是您想要的。您要确保 `M` 字符（如果存在）位于字符串的开头。 `M?` 可选地匹配单个 `M` 字符。由于重复了三次，因此您要匹配连续的零到三个 `M` 字符。 `$` 仅匹配字符串末尾的前置内容。与开头的 `^` 字符结合使用时，这意味着该模式必须匹配整个字符串，并且在 `M` 字符之前或之后没有其他字符。
	`re` 模块的本质是 `search` 函数，它接受一个正则表达式 (`pattern`) 和一个字符串 (`'M'`)，并尝试将字符串与正则表达式进行匹配。如果找到匹配项，则 `search` 返回一个对象，该对象具有描述匹配项的各种方法；如果未找到匹配项，则 `search` 返回 `None`，即 Python 的空值。您目前只关心模式是否匹配，这可以通过查看 `search` 的返回值来判断。`'M'` 匹配此正则表达式，因为第一个可选的 `M` 匹配，而第二个和第三个可选的 `M` 字符被忽略。
	`'MM'` 匹配，因为第一个和第二个可选的 `M` 字符匹配，而第三个 `M` 被忽略。
	`'MMM'` 匹配，因为所有三个 `M` 字符都匹配。
	`'MMMM'` 不匹配。所有三个 `M` 字符都匹配，但是正则表达式坚持字符串必须结束（因为有 `$` 字符），而字符串还没有结束（因为有第四个 `M`）。所以 `search` 返回 `None`。
	有趣的是，空字符串也匹配此正则表达式，因为所有 `M` 字符都是可选的。

	此模式的开头与前一个模式相同，检查字符串的开头 (`^`)，然后是千位 (`M?M?M?`)。然后是新部分，用括号括起来，它定义了一组三个互斥的模式，用竖线分隔：`CM`、`CD` 和 `D?C?C?C?`（这是一个可选的 `D`，后跟零到三个可选的 `C` 字符）。正则表达式解析器按顺序（从左到右）检查这些模式中的每一个，采用第一个匹配的模式，并忽略其余的。
	`'MCM'` 匹配，因为第一个 `M` 匹配，第二个和第三个 `M` 字符被忽略，并且 `CM` 匹配（因此 `CD` 和 `D?C?C?C?` 模式甚至从未被考虑）。`MCM` 是 `1900` 的罗马数字表示形式。
	`'MD'` 匹配，因为第一个 `M` 匹配，第二个和第三个 `M` 字符被忽略，并且 `D?C?C?C?` 模式匹配 `D`（三个 `C` 字符中的每一个都是可选的，并且被忽略）。`MD` 是 `1500` 的罗马数字表示形式。
	`'MMMCCC'` 匹配，因为所有三个 `M` 字符都匹配，并且 `D?C?C?C?` 模式匹配 `CCC`（`D` 是可选的，并且被忽略）。`MMMCCC` 是 `3300` 的罗马数字表示形式。
	`'MCMC'` 不匹配。第一个 `M` 匹配，第二个和第三个 `M` 字符被忽略，并且 `CM` 匹配，但是 `$` 不匹配，因为您还没有到达字符串的末尾（您还有一个未匹配的 `C` 字符）。`C`不作为 `D?C?C?C?` 模式的一部分匹配，因为互斥的 `CM` 模式已经匹配。
	有趣的是，空字符串仍然匹配此模式，因为所有 `M` 字符都是可选的并且被忽略，并且空字符串匹配 `D?C?C?C?` 模式，其中所有字符都是可选的并且被忽略。

深入 Python

7.3. 案例研究：罗马数字

7.3.1. 检查千位

示例 7.3. 检查千位

7.3.2. 检查百位

示例 7.4. 检查百位