我有一个像这样的 NSString:
@"200hello"
或者
@"0 something"
我想要做的是获取 NSString 中第一个出现的数字并将其转换为 int。
这样@"200hello" 就会变成 int = 200。
@"0 something" 将变为 int = 0。
我有一个像这样的 NSString:
@"200hello"
或者
@"0 something"
我想要做的是获取 NSString 中第一个出现的数字并将其转换为 int。
这样@"200hello" 就会变成 int = 200。
@"0 something" 将变为 int = 0。
int value;
BOOL success = [[NSScanner scannerWithString:@"1000safkaj"] scanInteger:&value];
如果数字并不总是在开头:
NSCharacterSet* nonDigits = [[NSCharacterSet decimalDigitCharacterSet] invertedSet];
int value = [[@"adfsdg1000safkaj" stringByTrimmingCharactersInSet:nonDigits] intValue];
Steve Ciarcia 曾经说过,一个测量结果值得一百多个工程师的意见。第一个也是最后一个,“如何从 NSString 获取 int 值”开始!
以下是竞争者:(使用已代代相传的令人难以置信的高精度 for(x=0; x<100000; x++) {} 微基准测试,每次匹配使用的微秒数和使用的字节数。时间通过getrusage(),通过 malloc_size() 使用的字节。要匹配的字符串在所有情况下都被规范化为“foo 2020hello”,除了那些需要数字在开头的情况。所有转换都被规范化为“int”。这两个时间之后的数字是相对于表现最好和最差的标准化结果。)
编辑:这些是发布的原始数字,请参阅下面的更新数字。此外,时间来自 2.66 Core2 macbook pro。
characterSet time: 1.36803us 12.5 / 1.00 memory: 64 bytes (via Nikolai Ruhe)
original RKL time: 1.20686us 11.0 / 0.88 memory: 16 bytes (via Dave DeLong)
modified RKL time: 1.07631us 9.9 / 0.78 memory: 16 bytes (me, changed regex to \d+)
scannerScanInt time: 0.49951us 4.6 / 0.36 memory: 32 bytes (via Nikolai Ruhe)
intValue time: 0.16739us 1.5 / 0.12 memory: 0 bytes (via zpasternack)
rklIntValue time: 0.10925us 1.0 / 0.08 memory: 0 bytes (me, modified RKL example)
正如我在此消息中的其他地方所指出的,我最初将其放入用于 RegexKitLite 的单元测试工具中。好吧,作为单元测试工具意味着我正在使用我的 RegexKitLite 的私有副本进行测试......恰好在跟踪用户的错误报告时添加了一堆调试内容。上面的计时结果大致相当于[valueString flushCachedRegexData];
在 for() {} 计时循环内调用(这实际上是无意调试的东西正在做的事情)。以下结果来自对可用的最新、未修改的 RegexKitLite (3.1) 进行编译:
characterSet time: 1.36803us 12.5 / 1.00 memory: 64 bytes (via Nikolai Ruhe)
original RKL time: 0.58446us 5.3 / 0.43 memory: 16 bytes (via Dave DeLong)
modified RKL time: 0.54628us 5.0 / 0.40 memory: 16 bytes (me, changed regex to \d+)
scannerScanInt time: 0.49951us 4.6 / 0.36 memory: 32 bytes (via Nikolai Ruhe)
intValue time: 0.16739us 1.5 / 0.12 memory: 0 bytes (via zpasternack)
rklIntValue time: 0.10925us 1.0 / 0.08 memory: 0 bytes (me, modified RKL example)
这略好于 50% 的改进。如果您愿意稍微危险地生活,您可以使用-DRKL_FAST_MUTABLE_CHECK
编译时间选项来提高速度:
original RKL time: 0.51188us 4.7 / 0.37 memory: 16 bytes using intValue
modified RKL time: 0.47665us 4.4 / 0.35 memory: 16 bytes using intValue
original RKL time: 0.44337us 4.1 / 0.32 memory: 16 bytes using rklIntValue
modified RKL time: 0.42128us 3.9 / 0.31 memory: 16 bytes using rklIntValue
这通常有利于另外 10% 的提升,而且使用起来相当安全(有关更多信息,请参阅 RKL 文档)。当我在做的时候......为什么不使用更快的 rklIntValue 呢?使用外部、第三方、非集成的通用正则表达式模式匹配引擎击败原生的、内置的 Foundation 方法是否有某种奖励?不要相信“正则表达式很慢”的炒作。
结束编辑
RegexKitLite 示例可以在RegexKitLite Fast Hex Conversion中找到。基本上将 strtoimax 换成了 strtol,并添加了一行代码来跳过不是 [+-0-9] 的前导字符。(完全披露:我是 RegexKitLite 的作者)
'scannerScanInt' 和 'intValue' 都存在要提取的数字必须位于字符串开头的问题。我认为两者都会跳过任何领先的空白。
我将 Dave DeLongs 正则表达式从 '[^\d]*(\d+)' 修改为 '\d+' 因为这就是真正需要的,并且它设法摆脱了启动捕获组的使用。
因此,基于以上数据,我提出以下建议:
这里基本上有两个不同的功能类别:那些可以容忍额外的“东西”并且仍然可以为您提供数字(characterSet、RegexKitLite 匹配器和 rklIntValue),以及那些基本上需要数字作为字符串中的第一件事的那些,容忍在开始时最多有一些空白填充(scannerScanInt 和 intValue)。
不要使用 NSCharacterClass 来做这些事情。对于给定的示例,16 字节用于实例化第一个 NSCharacterClass,然后 32 字节用于反转版本,最后 16 字节用于字符串结果。通用正则表达式引擎以两位数的百分比优势胜过它,同时使用更少的内存这一事实几乎可以达成交易。
(请记住,我编写了 RegexKitLite,因此请使用您认为合适的任何大小的盐粒)。
考虑到 RegexKitLite 返回一个 NSString 对象这一事实,RegexKitLite 适时使用并使用尽可能少的内存。由于它在内部为所有 ICU 正则表达式引擎使用了 LRU 缓存,因此这些成本会随着时间的推移和重复使用而分摊。如果需要,更改正则表达式也需要几秒钟(十六进制值?十六进制浮点数?货币?日期?没问题。)
对于简单的匹配器,很明显你绝对不应该使用 NSScanner 来做这些事情。使用 NSScanner 执行 'scanInt:' 与调用 [aString intValue] 没有什么不同。产生相同的结果和相同的警告。不同之处在于 NSScanner 花费 5 倍的时间处理同一件事,同时在此过程中浪费了 32 个字节的内存......而 [aString intValue] (可能)不需要一个字节的内存来执行它的魔力 - 它可能只是调用 strtoimax() (或等效的),因为它可以直接访问保存字符串内容的指针....
最后一个是“rklIntValue”,它只是您可以在上面找到的内容的略微调整版本(上面的“RegexKitLite Fast Hex Conversion”链接,stackoverflow 不会让我发布两次)。它使用 CoreFoundation 尝试直接访问字符串缓冲区,如果失败,则从堆栈中分配一些空间并将字符串的一部分复制到该缓冲区。这需要 CPU 上的所有,哦,三个指令,并且从根本上不可能像 malloc() 分配那样“泄漏”。所以它使用零内存并且运行非常非常快。作为额外的奖励,您将要转换的字符串的基数传递给 strtoXXX()。十进制为 10,十六进制为 16(如果存在则自动吞下前导 0x),或自动检测为 0。这是一个简单的单行代码,可以跳过任何 ' 无趣的字符,直到你得到你想要的(我选择 -、+ 和 0-9)。如果您需要解析双精度值,也可以简单地交换 strtod() 之类的东西。strtod() 几乎可以转换任何有效的浮点文本:NAN、INF、十六进制浮点数,随你命名。
编辑:
根据 OP 的请求,这是我用来执行测试的代码的修剪和缩小版本。需要注意的一件事:将这些放在一起时,我注意到 Dave DeLong 的原始正则表达式并不能很好地工作。问题在于否定字符集——集合内的元字符序列(即 [^\d]+)表示字面字符,而不是它们在字符集之外的特殊含义。替换为具有预期效果的 [^\p{DecimalNumber}]*。
我最初将这些东西用螺栓固定到 RegexKitLite 单元测试工具中,所以我为 GC 留下了一些零碎的东西。我忘记了这一切,但是当 GC 打开时发生的事情的简短版本是所有事情的时间,但 RegexKitLite 加倍(也就是说,需要两倍的时间)。RKL 只需要大约 75% 的时间(我在开发它时付出了巨大的、不平凡的努力)。rklIntValue 时间保持完全相同。
编译
shell% gcc -DNS_BLOCK_ASSERTIONS -mdynamic-no-pic -std=gnu99 -O -o stackOverflow stackOverflow.m RegexKitLite.m -framework Foundation -licucore -lauto
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <limits.h>
#include <stdint.h>
#include <sys/time.h>
#include <sys/resource.h>
#include <objc/objc-auto.h>
#include <malloc/malloc.h>
#import <Foundation/Foundation.h>
#import "RegexKitLite.h"
static double cpuTimeUsed(void);
static double cpuTimeUsed(void) {
struct rusage currentRusage;
getrusage(RUSAGE_SELF, ¤tRusage);
double userCPUTime = ((((double)currentRusage.ru_utime.tv_sec) * 1000000.0) + ((double)currentRusage.ru_utime.tv_usec)) / 1000000.0;
double systemCPUTime = ((((double)currentRusage.ru_stime.tv_sec) * 1000000.0) + ((double)currentRusage.ru_stime.tv_usec)) / 1000000.0;
double CPUTime = userCPUTime + systemCPUTime;
return(CPUTime);
}
@interface NSString (IntConversion)
-(int)rklIntValue;
@end
@implementation NSString (IntConversion)
-(int)rklIntValue
{
CFStringRef cfSelf = (CFStringRef)self;
UInt8 buffer[64];
const char *cptr, *optr;
char c;
if((cptr = optr = CFStringGetCStringPtr(cfSelf, kCFStringEncodingMacRoman)) == NULL) {
CFRange range = CFRangeMake(0L, CFStringGetLength(cfSelf));
CFIndex usedBytes = 0L;
CFStringGetBytes(cfSelf, range, kCFStringEncodingUTF8, '?', false, buffer, 60L, &usedBytes);
buffer[usedBytes] = 0U;
cptr = optr = (const char *)buffer;
}
while(((cptr - optr) < 60) && (!((((c = *cptr) >= '0') && (c <= '9')) || (c == '-') || (c == '+'))) ) { cptr++; }
return((int)strtoimax(cptr, NULL, 0));
}
@end
int main(int argc __attribute__((unused)), char *argv[] __attribute__((unused))) {
NSAutoreleasePool *pool = [[NSAutoreleasePool alloc] init];
#ifdef __OBJC_GC__
objc_start_collector_thread();
objc_clear_stack(OBJC_CLEAR_RESIDENT_STACK);
objc_collect(OBJC_EXHAUSTIVE_COLLECTION | OBJC_WAIT_UNTIL_DONE);
#endif
BOOL gcEnabled = ([objc_getClass("NSGarbageCollector") defaultCollector] != NULL) ? YES : NO;
NSLog(@"Garbage Collection is: %@", gcEnabled ? @"ON" : @"OFF");
NSLog(@"Architecture: %@", (sizeof(void *) == 4UL) ? @"32-bit" : @"64-bit");
double startTime = 0.0, csTime = 0.0, reTime = 0.0, re2Time = 0.0, ivTime = 0.0, scTime = 0.0, rklTime = 0.0;
NSString *valueString = @"foo 2020hello", *value2String = @"2020hello";
NSString *reRegex = @"[^\\p{DecimalNumber}]*(\\d+)", *re2Regex = @"\\d+";
int value = 0;
NSUInteger x = 0UL;
{
NSCharacterSet *digits = [NSCharacterSet decimalDigitCharacterSet];
NSCharacterSet *nonDigits = [digits invertedSet];
NSScanner *scanner = [NSScanner scannerWithString:value2String];
NSString *csIntString = [valueString stringByTrimmingCharactersInSet:nonDigits];
NSString *reString = [valueString stringByMatching:reRegex capture:1L];
NSString *re2String = [valueString stringByMatching:re2Regex];
[scanner scanInt:&value];
NSLog(@"digits : %p, size: %lu", digits, malloc_size(digits));
NSLog(@"nonDigits : %p, size: %lu", nonDigits, malloc_size(nonDigits));
NSLog(@"scanner : %p, size: %lu, int: %d", scanner, malloc_size(scanner), value);
NSLog(@"csIntString : %p, size: %lu, '%@' int: %d", csIntString, malloc_size(csIntString), csIntString, [csIntString intValue]);
NSLog(@"reString : %p, size: %lu, '%@' int: %d", reString, malloc_size(reString), reString, [reString intValue]);
NSLog(@"re2String : %p, size: %lu, '%@' int: %d", re2String, malloc_size(re2String), re2String, [re2String intValue]);
NSLog(@"intValue : %d", [value2String intValue]);
NSLog(@"rklIntValue : %d", [valueString rklIntValue]);
}
for(x = 0UL, startTime = cpuTimeUsed(); x < 100000UL; x++) { value = [[valueString stringByTrimmingCharactersInSet:[[NSCharacterSet decimalDigitCharacterSet] invertedSet]] intValue]; } csTime = (cpuTimeUsed() - startTime) / (double)x;
for(x = 0UL, startTime = cpuTimeUsed(); x < 100000UL; x++) { value = [[valueString stringByMatching:reRegex capture:1L] intValue]; } reTime = (cpuTimeUsed() - startTime) / (double)x;
for(x = 0UL, startTime = cpuTimeUsed(); x < 100000UL; x++) { value = [[valueString stringByMatching:re2Regex] intValue]; } re2Time = (cpuTimeUsed() - startTime) / (double)x;
for(x = 0UL, startTime = cpuTimeUsed(); x < 100000UL; x++) { value = [valueString rklIntValue]; } rklTime = (cpuTimeUsed() - startTime) / (double)x;
for(x = 0UL, startTime = cpuTimeUsed(); x < 100000UL; x++) { value = [value2String intValue]; } ivTime = (cpuTimeUsed() - startTime) / (double)x;
for(x = 0UL, startTime = cpuTimeUsed(); x < 100000UL; x++) { [[NSScanner scannerWithString:value2String] scanInt:&value]; } scTime = (cpuTimeUsed() - startTime) / (double)x;
NSLog(@"csTime : %.5lfus", csTime * 1000000.0);
NSLog(@"reTime : %.5lfus", reTime * 1000000.0);
NSLog(@"re2Time: %.5lfus", re2Time * 1000000.0);
NSLog(@"scTime : %.5lfus", scTime * 1000000.0);
NSLog(@"ivTime : %.5lfus", ivTime * 1000000.0);
NSLog(@"rklTime: %.5lfus", rklTime * 1000000.0);
[NSString clearStringCache];
[pool release]; pool = NULL;
return(0);
}
如果 int 值始终位于字符串的开头,则可以简单地使用 intValue。
NSString *string = @"123hello";
int myInt = [string intValue];
我可能会使用正则表达式(使用出色的RegexKitLite实现)。然后它会是这样的:
#import "RegexKitLite.h"
NSString * original = @"foo 220hello";
NSString * number = [original stringByMatching:@"[^\\d]*(\\d+)" capture:1];
return [number integerValue];
正则表达式 @"[^\d]*(\d+)" 表示“任意数量的非数字字符后跟至少一个数字字符”。
我想出了自己的答案,可能比其他人提供的更快、更容易。
我的回答确实假设您知道数字开始和结束的位置...
NSString *myString = @"21sss";
int numberAtStart = [[myString substringToIndex:2] intValue];
你也可以用另一种方式工作:
NSString *myString = @"sss22";
int numberAtEnd = [[myString substringFromIndex:3] intValue];
int i;
NSString* string;
i = [string intValue];