我有一个解析问题。我有存储为字符串的句子。我想抓取每个句子中的每个单词,但是我想过滤我抓取的单词。例如说我有一个类似下面的句子:
Hell0 3v3ryb0dy @ stackoverflow $people \暗示女王$ 等于 ~queen --> ~people。/#逻辑
我会做以下事情:
- 抓住'H3ll0'
- 抢3v3ryb0dy
- 扔掉@
- 从 '$people' 中获取 'people'
- 从 '\implies' 中获取 'implies'
- 从 'queen$' 中获取 'queen'
- 抓住“等于”
- 从'~queen'中抢'queen'
- 扔掉-->
- 从 '~people' 中获取 'people'
- 从'/#logic'中获取'逻辑'
本质上,我只想要字母数字字符,每当我在单词之前或之后有一些其他字符(例如 \)时,我都想忽略这个其他字符。
目前我正在做:sentence.split(" ")
这会从句子中获取单个单词,但它会抓取 '$people' 和 '~people' 并在我希望它们受到相同对待时以不同方式对待它们。
- 我怎样才能做到这一点?
- 正则表达式会在这里帮助我吗?