目前我正在开发一个 Web 应用程序来获取 Twitter 流并尝试自己创建一个自然语言处理。
由于我的数据来自 Twitter(限制为 140 个字符),因此缩短了许多单词,或者在这种情况下,省略了空格。
例如:
"Hi, my name is Bob. I m 19yo and 170cm tall"
应标记为:
- hi
- my
- name
- bob
- i
- 19
- yo
- 170
- cm
- tall
请注意,19
它们yo
之间19yo
没有空格。我主要用它来提取带有单位的数字。
简单地说,我需要的是一种方法,可以通过没有分隔符的数字或字母块来“分解”每个包含数字的标记。
'123abc'
将会['123', 'abc']
'abc123'
将会['abc', '123']
'abc123xyz'
将会['abc', '123', 'xyz']
等等。
在 PHP 中实现它的最佳方法是什么?
我发现了一些接近它的东西,但它是 C# 并且特别适用于日/月拆分。如何在 C# 中根据字母和数字拆分字符串