我正在寻找有关分析文件路径名的工具、方法和技术的信息。我不是在谈论文件大小、读/写时间或文件类型,而是分析它自身的路径或 URL。
我只知道基本的词频文本工具或方法,但我想知道人们是否使用/应用更高级的东西来尝试从中挖掘额外的信息。
谢谢!
更新:
这是我想要的最狭窄的例子。好的,所以我有一些完整的路径名作为字符串,如下所示:
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File1.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File2.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File3.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File4.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File5.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File1.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File2.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File3.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File4.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File5.doc
我想知道的是 MapShedMaps 文件夹“唯一”出现了 2 次。如果我在弦上做频率,我会得到 10 次出场。问题是我不知道目录中的哪个级别很重要,因此我希望根据我所描述的内容在目录的每个级别上都有一个唯一计数。