我正在编写一个 HTML 刮板程序,当它从页面中抓取 HTML 时,它会返回 HTML,我想抓取所有大写字母的单词,然后将这些单词存储到数据库中。我现在的问题是我无法正确的算法来解析我返回的 HTML 的每一行以存储单词。这基本上就是我正在使用的格式。重要你会注意到大写字母的单词总是第一个,所以基本上我只需要查看每行 HTML 的第一个字母,然后确定整个单词是否大写。如果是,那么我想将这个词添加到列表中,如果不是,那么我想转到下一行......所以它看起来像这样......
姓名列表 ----> 应跳过此行,因为第一个单词并非全部大写
AARON ....
ABRAHAM ....
ANGELA ...
AMY ...
ASHLEY ....
AARON through ASHLEY should be added to list because first word is all CAPS
我能够获得上述格式的 html,但现在我很难编写算法来获取每行的第一个单词,然后
有没有人知道如何在不使用外部解析而只使用循环和列表的情况下做到这一点。谢谢,感谢您的帮助