4

我有一个像这样的 NSString:

@"200hello"

或者

@"0 something"

我想要做的是获取 NSString 中第一个出现的数字并将其转换为 int。

这样@"200hello" 就会变成 int = 200。

@"0 something" 将变为 int = 0。

4

6 回答 6

30
int value;
BOOL success = [[NSScanner scannerWithString:@"1000safkaj"] scanInteger:&value];

如果数字并不总是在开头:

NSCharacterSet* nonDigits = [[NSCharacterSet decimalDigitCharacterSet] invertedSet];
int value = [[@"adfsdg1000safkaj" stringByTrimmingCharactersInSet:nonDigits] intValue];
于 2009-07-16T16:37:21.880 回答
20

Steve Ciarcia 曾经说过,一个测量结果值得一百多个工程师的意见。第一个也是最后一个,“如何从 NSString 获取 int 值”开始!

以下是竞争者:(使用已代代相传的令人难以置信的高精度 for(x=0; x<100000; x++) {} 微基准测试,每次匹配使用的微秒数和使用的字节数。时间通过getrusage(),通过 malloc_size() 使用的字节。要匹配的字符串在所有情况下都被规范化为“foo 2020hello”,除了那些需要数字在开头的情况。所有转换都被规范化为“int”。这两个时间之后的数字是相对于表现最好和最差的标准化结果。)

编辑:这些是发布的原始数字,请参阅下面的更新数字。此外,时间来自 2.66 Core2 macbook pro。

characterSet   time: 1.36803us 12.5 / 1.00 memory: 64 bytes (via Nikolai Ruhe)
original RKL   time: 1.20686us 11.0 / 0.88 memory: 16 bytes (via Dave DeLong)
modified RKL   time: 1.07631us  9.9 / 0.78 memory: 16 bytes (me, changed regex to \d+)
scannerScanInt time: 0.49951us  4.6 / 0.36 memory: 32 bytes (via Nikolai Ruhe)
intValue       time: 0.16739us  1.5 / 0.12 memory:  0 bytes (via zpasternack)
rklIntValue    time: 0.10925us  1.0 / 0.08 memory:  0 bytes (me, modified RKL example)

正如我在此消息中的其他地方所指出的,我最初将其放入用于 RegexKitLite 的单元测试工具中。好吧,作为单元测试工具意味着我正在使用我的 RegexKitLite 的私有副本进行测试......恰好在跟踪用户的错误报告时添加了一堆调试内容。上面的计时结果大致相当于[valueString flushCachedRegexData];在 for() {} 计时循环内调用(这实际上是无意调试的东西正在做的事情)。以下结果来自对可用的最新、未修改的 RegexKitLite (3.1) 进行编译:

characterSet   time: 1.36803us 12.5 / 1.00 memory: 64 bytes (via Nikolai Ruhe)
original RKL   time: 0.58446us  5.3 / 0.43 memory: 16 bytes (via Dave DeLong)
modified RKL   time: 0.54628us  5.0 / 0.40 memory: 16 bytes (me, changed regex to \d+)
scannerScanInt time: 0.49951us  4.6 / 0.36 memory: 32 bytes (via Nikolai Ruhe)
intValue       time: 0.16739us  1.5 / 0.12 memory:  0 bytes (via zpasternack)
rklIntValue    time: 0.10925us  1.0 / 0.08 memory:  0 bytes (me, modified RKL example)

这略好于 50% 的改进。如果您愿意稍微危险地生活,您可以使用-DRKL_FAST_MUTABLE_CHECK编译时间选项来提高速度:

original RKL   time: 0.51188us  4.7 / 0.37 memory: 16 bytes using intValue
modified RKL   time: 0.47665us  4.4 / 0.35 memory: 16 bytes using intValue
original RKL   time: 0.44337us  4.1 / 0.32 memory: 16 bytes using rklIntValue
modified RKL   time: 0.42128us  3.9 / 0.31 memory: 16 bytes using rklIntValue

这通常有利于另外 10% 的提升,而且使用起来相当安全(有关更多信息,请参阅 RKL 文档)。当我在做的时候......为什么不使用更快的 rklIntValue 呢?使用外部、第三方、非集成的通用正则表达式模式匹配引擎击败原生的、内置的 Foundation 方法是否有某种奖励?不要相信“正则表达式很慢”的炒作。

结束编辑

RegexKitLite 示例可以在RegexKitLite Fast Hex Conversion中找到。基本上将 strtoimax 换成了 strtol,并添加了一行代码来跳过不是 [+-0-9] 的前导字符。(完全披露:我是 RegexKitLite 的作者)

'scannerScanInt' 和 'intValue' 都存在要提取的数字必须位于字符串开头的问题。我认为两者都会跳过任何领先的空白。

我将 Dave DeLongs 正则表达式从 '[^\d]*(\d+)' 修改为 '\d+' 因为这就是真正需要的,并且它设法摆脱了启动捕获组的使用。

因此,基于以上数据,我提出以下建议:

这里基本上有两个不同的功能类别:那些可以容忍额外的“东西”并且仍然可以为您提供数字(characterSet、RegexKitLite 匹配器和 rklIntValue),以及那些基本上需要数字作为字符串中的第一件事的那些,容忍在开始时最多有一些空白填充(scannerScanInt 和 intValue)。

不要使用 NSCharacterClass 来做这些事情。对于给定的示例,16 字节用于实例化第一个 NSCharacterClass,然后 32 字节用于反转版本,最后 16 字节用于字符串结果。通用正则表达式引擎以两位数的百分比优势胜过它,同时使用更少的内存这一事实几乎可以达成交易。

(请记住,我编写了 RegexKitLite,因此请使用您认为合适的任何大小的盐粒)。

考虑到 RegexKitLite 返回一个 NSString 对象这一事实,RegexKitLite 适时使用并使用尽可能少的内存。由于它在内部为所有 ICU 正则表达式引擎使用了 LRU 缓存,因此这些成本会随着时间的推移和重复使用而分摊。如果需要,更改正则表达式也需要几秒钟(十六进制值?十六进制浮点数?货币?日期?没问题。)

对于简单的匹配器,很明显你绝对不应该使用 NSScanner 来做这些事情。使用 NSScanner 执行 'scanInt:' 与调用 [aString intValue] 没有什么不同。产生相同的结果和相同的警告。不同之处在于 NSScanner 花费 5 倍的时间处理同一件事,同时在此过程中浪费了 32 个字节的内存......而 [aString intValue] (可能)不需要一个字节的内存来执行它的魔力 - 它可能只是调用 strtoimax() (或等效的),因为它可以直接访问保存字符串内容的指针....

最后一个是“rklIntValue”,它只是您可以在上面找到的内容的略微调整版本(上面的“RegexKitLite Fast Hex Conversion”链接,stackoverflow 不会让我发布两次)。它使用 CoreFoundation 尝试直接访问字符串缓冲区,如果失败,则从堆栈中分配一些空间并将字符串的一部分复制到该缓冲区。这需要 CPU 上的所有,哦,三个指令,并且从根本上不可能像 malloc() 分配那样“泄漏”。所以它使用零内存并且运行非常非常快。作为额外的奖励,您将要转换的字符串的基数传递给 strtoXXX()。十进制为 10,十六进制为 16(如果存在则自动吞下前导 0x),或自动检测为 0。这是一个简单的单行代码,可以跳过任何 ' 无趣的字符,直到你得到你想要的(我选择 -、+ 和 0-9)。如果您需要解析双精度值,也可以简单地交换 strtod() 之类的东西。strtod() 几乎可以转换任何有效的浮点文本:NAN、INF、十六进制浮点数,随你命名。

编辑:

根据 OP 的请求,这是我用来执行测试的代码的修剪和缩小版本。需要注意的一件事:将这些放在一起时,我注意到 Dave DeLong 的原始正则表达式并不能很好地工作。问题在于否定字符集——集合内的元字符序列(即 [^\d]+)表示字面字符,而不是它们在字符集之外的特殊含义。替换为具有预期效果的 [^\p{DecimalNumber}]*。

我最初将这些东西用螺栓固定到 RegexKitLite 单元测试工具中,所以我为 GC 留下了一些零碎的东西。我忘记了这一切,但是当 GC 打开时发生的事情的简短版本是所有事情的时间,但 RegexKitLite 加倍(也就是说,需要两倍的时间)。RKL 只需要大约 75% 的时间(我在开发它时付出了巨大的、不平凡的努力)。rklIntValue 时间保持完全相同。

编译

shell% gcc -DNS_BLOCK_ASSERTIONS -mdynamic-no-pic -std=gnu99 -O -o stackOverflow stackOverflow.m RegexKitLite.m -framework Foundation -licucore -lauto

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <limits.h>
#include <stdint.h>
#include <sys/time.h>
#include <sys/resource.h>
#include <objc/objc-auto.h>
#include <malloc/malloc.h>

#import <Foundation/Foundation.h>
#import "RegexKitLite.h"

static double cpuTimeUsed(void);
static double cpuTimeUsed(void) {
  struct rusage currentRusage;

  getrusage(RUSAGE_SELF, &currentRusage);
  double userCPUTime   = ((((double)currentRusage.ru_utime.tv_sec) * 1000000.0) + ((double)currentRusage.ru_utime.tv_usec)) / 1000000.0;
  double systemCPUTime = ((((double)currentRusage.ru_stime.tv_sec) * 1000000.0) + ((double)currentRusage.ru_stime.tv_usec)) / 1000000.0;
  double CPUTime = userCPUTime + systemCPUTime;
  return(CPUTime);
}

@interface NSString (IntConversion)
-(int)rklIntValue;
@end

@implementation NSString (IntConversion)

-(int)rklIntValue
{
  CFStringRef cfSelf = (CFStringRef)self;
  UInt8 buffer[64];
  const char *cptr, *optr;
  char c;

  if((cptr = optr = CFStringGetCStringPtr(cfSelf, kCFStringEncodingMacRoman)) == NULL) {
    CFRange range     = CFRangeMake(0L, CFStringGetLength(cfSelf));
    CFIndex usedBytes = 0L;
    CFStringGetBytes(cfSelf, range, kCFStringEncodingUTF8, '?', false, buffer, 60L, &usedBytes);
    buffer[usedBytes] = 0U;
    cptr = optr       = (const char *)buffer;
  }

  while(((cptr - optr) < 60) && (!((((c = *cptr) >= '0') && (c <= '9')) || (c == '-') || (c == '+'))) ) { cptr++; }
  return((int)strtoimax(cptr, NULL, 0));
}

@end

int main(int argc __attribute__((unused)), char *argv[] __attribute__((unused))) {
  NSAutoreleasePool *pool = [[NSAutoreleasePool alloc] init];

#ifdef __OBJC_GC__
  objc_start_collector_thread();
  objc_clear_stack(OBJC_CLEAR_RESIDENT_STACK);
  objc_collect(OBJC_EXHAUSTIVE_COLLECTION | OBJC_WAIT_UNTIL_DONE);
#endif

  BOOL gcEnabled = ([objc_getClass("NSGarbageCollector") defaultCollector] != NULL) ? YES : NO;
  NSLog(@"Garbage Collection is: %@", gcEnabled ? @"ON" : @"OFF");
  NSLog(@"Architecture: %@", (sizeof(void *) == 4UL) ? @"32-bit" : @"64-bit");

  double      startTime = 0.0, csTime = 0.0, reTime = 0.0, re2Time = 0.0, ivTime = 0.0, scTime = 0.0, rklTime = 0.0;
  NSString   *valueString = @"foo 2020hello", *value2String = @"2020hello";
  NSString   *reRegex = @"[^\\p{DecimalNumber}]*(\\d+)", *re2Regex = @"\\d+";
  int         value = 0;
  NSUInteger  x = 0UL;

  {
    NSCharacterSet *digits      = [NSCharacterSet decimalDigitCharacterSet];
    NSCharacterSet *nonDigits   = [digits invertedSet];
    NSScanner      *scanner     = [NSScanner scannerWithString:value2String];
    NSString       *csIntString = [valueString stringByTrimmingCharactersInSet:nonDigits];
    NSString       *reString    = [valueString stringByMatching:reRegex capture:1L];
    NSString       *re2String   = [valueString stringByMatching:re2Regex];

    [scanner scanInt:&value];

    NSLog(@"digits      : %p, size: %lu", digits, malloc_size(digits));
    NSLog(@"nonDigits   : %p, size: %lu", nonDigits, malloc_size(nonDigits));
    NSLog(@"scanner     : %p, size: %lu, int: %d", scanner, malloc_size(scanner), value);
    NSLog(@"csIntString : %p, size: %lu, '%@' int: %d", csIntString, malloc_size(csIntString), csIntString, [csIntString intValue]);
    NSLog(@"reString    : %p, size: %lu, '%@' int: %d", reString, malloc_size(reString), reString, [reString intValue]);
    NSLog(@"re2String   : %p, size: %lu, '%@' int: %d", re2String, malloc_size(re2String), re2String, [re2String intValue]);
    NSLog(@"intValue    : %d", [value2String intValue]);
    NSLog(@"rklIntValue : %d", [valueString rklIntValue]);
  }

  for(x = 0UL, startTime = cpuTimeUsed(); x < 100000UL; x++) { value = [[valueString stringByTrimmingCharactersInSet:[[NSCharacterSet decimalDigitCharacterSet] invertedSet]] intValue]; } csTime = (cpuTimeUsed() - startTime) / (double)x;
  for(x = 0UL, startTime = cpuTimeUsed(); x < 100000UL; x++) { value =  [[valueString stringByMatching:reRegex capture:1L] intValue]; } reTime = (cpuTimeUsed() - startTime) / (double)x;
  for(x = 0UL, startTime = cpuTimeUsed(); x < 100000UL; x++) { value =  [[valueString stringByMatching:re2Regex] intValue]; } re2Time = (cpuTimeUsed() - startTime) / (double)x;
  for(x = 0UL, startTime = cpuTimeUsed(); x < 100000UL; x++) { value =  [valueString rklIntValue]; } rklTime = (cpuTimeUsed() - startTime) / (double)x;
  for(x = 0UL, startTime = cpuTimeUsed(); x < 100000UL; x++) { value = [value2String intValue]; } ivTime = (cpuTimeUsed() - startTime) / (double)x;
  for(x = 0UL, startTime = cpuTimeUsed(); x < 100000UL; x++) { [[NSScanner scannerWithString:value2String] scanInt:&value]; } scTime = (cpuTimeUsed() - startTime) / (double)x;

  NSLog(@"csTime : %.5lfus", csTime * 1000000.0);
  NSLog(@"reTime : %.5lfus", reTime * 1000000.0);
  NSLog(@"re2Time: %.5lfus", re2Time * 1000000.0);
  NSLog(@"scTime : %.5lfus", scTime * 1000000.0);
  NSLog(@"ivTime : %.5lfus", ivTime * 1000000.0);
  NSLog(@"rklTime: %.5lfus", rklTime * 1000000.0);

  [NSString clearStringCache];
  [pool release]; pool = NULL;

  return(0);
}
于 2009-07-17T07:56:43.197 回答
8

如果 int 值始终位于字符串的开头,则可以简单地使用 intValue。

NSString *string = @"123hello";
int myInt = [string intValue];
于 2009-07-16T16:39:12.813 回答
3

我可能会使用正则表达式(使用出色的RegexKitLite实现)。然后它会是这样的:

#import "RegexKitLite.h"
NSString * original = @"foo 220hello";
NSString * number = [original stringByMatching:@"[^\\d]*(\\d+)" capture:1];
return [number integerValue];

正则表达式 @"[^\d]*(\d+)" 表示“任意数量的非数字字符后跟至少一个数字字符”。

于 2009-07-16T16:30:20.460 回答
0

我想出了自己的答案,可能比其他人提供的更快、更容易。

我的回答确实假设您知道数字开始和结束的位置...

NSString *myString = @"21sss";
int numberAtStart = [[myString substringToIndex:2] intValue];

你也可以用另一种方式工作:

NSString *myString = @"sss22";
int numberAtEnd = [[myString substringFromIndex:3] intValue];
于 2009-07-17T09:18:10.100 回答
-1
int i;
NSString* string;
i = [string intValue];
于 2012-04-11T12:09:49.183 回答