问题标签 [tokenize]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
316 浏览

c++ - 反向偏移标记器

我有一个要标记的字符串。它的形式是HHmmssff, H, m,sf数字。

它应该被标记为四个 2 位数字,但我需要它也接受速记形式,就像sff它解释为00000sff. 我想使用boost::tokenizer'soffset_separator但它似乎只适用于正偏移量,我想让它向后工作。

好的,一个想法是从左边用零填充字符串,但也许社区想出了一些超级智能的东西。;)

编辑: 其他要求刚刚开始发挥作用。

更智能的解决方案的基本需求是处理所有情况,如f, ssff,mssff等,但也接受更完整的时间符号,HH:mm:ss:ff如其速记形式,例如s:ff,甚至s:(这应该被解释为s:00)。

在字符串以结尾的情况下,:我显然也可以用两个零填充它,然后去掉所有分隔符,只留下数字并用精神解析结果字符串。

int但是,如果有一种方法可以使偏移标记器从字符串的末尾返回(偏移量 -2、-4、-6、-8)并将数字转换为s ,这似乎会更简单一些。

0 投票
8 回答
337 浏览

c# - 解析用户的查询

所以这就是我想要实现的目标。我想给我的用户一个类似谷歌的文本框,他们可以在其中输入查询。我希望他们能够表达半自然语言,例如

如果语法必须是相当结构化的并且仅限于这个特定的域,那没关系......这些是将使用它的专家用户。

最终,我想我希望解析结果可以作为某种表达式树使用。但是,如果您对哪种数据结构可能更好有其他想法。

这是在 C# 中:-)

0 投票
4 回答
39087 浏览

parsing - 寻找“标记器”、“解析器”和“词法分析器”是什么以及它们如何相互关联和使用的明确定义?

我正在寻找关于什么是“分词器”、“解析器”和“词法分析器”以及它们如何相互关联的明确定义(例如,解析器是否使用分词器,反之亦然)?我需要创建一个程序,将通过 c/h 源文件来提取数据声明和定义。

我一直在寻找示例并且可以找到一些信息,但我真的很难掌握语法规则、解析树和抽象语法树等基本概念以及它们如何相互关联。最终这些概念需要存储在一个实际的程序中,但是 1)它们看起来像什么,2)有没有共同的实现。

我一直在查看有关 Lex 和 Yacc 等主题和程序的 Wikipedia,但从未学习过编译器类(EE 专业),我发现很难完全理解发生了什么。

0 投票
6 回答
1424 浏览

php - 实施关键字比较方案(反向搜索)

我有一个不断增长的关键字数据库。我需要解析传入的文本输入(文章、提要等)并查找数据库中的哪些关键字出现在文本中。关键字的数据库比文本大得多。

由于数据库不断增长(用户添加了越来越多的关键字来关注),我认为最好的选择是将文本输入分解为单词并将其与数据库进行比较。我的主要困境是实现这个比较方案(这个项目将使用 PHP 和 MySQL)。

最简单的实现是针对关键字表创建一个简单的 SELECT 查询,其中有一个巨大的 IN 子句列出所有找到的关键字。

另一种方法是在内存中创建一个哈希表(使用 memcache 之类的东西)并以相同的方式对其进行检查。

有没有人对这种搜索有任何经验,并对如何更好地实现这一点有任何建议?我还没有尝试过任何这些方法,我现在只是在收集想法。

0 投票
1 回答
3542 浏览

arrays - 在 J2ME 中从 txt 文件中解析数据

基本上我在 J2ME 中创建了一个室内导航系统。我已将位置详细信息放在 .txt 文件中,即

  • 地点名称及其坐标。
  • 具有各自起始节点和结束节点的边以及权重(节点的长度)。

    我将这两个详细信息放在同一个文件中,这样用户就不必下载多个文件来让他们的地图工作(这可能会变得耗时并且看起来很复杂)。所以我所做的是通过首先输入位置名称和坐标来分隔不同的细节,然后我通过绘制一条带有多个下划线的线将该部分与下一部分分开,即边缘。

    现在我遇到的问题是通过设置命令(同时手动标记输入流)将不同的细节解析为单独的数组,以检查下一个标记是否是下划线。

  • 如果是,(在伪代码术语中),移动到流中的下一行,创建一个新数组并用下一组细节填充它。

    我在这里找到了一些解释/代码,它做了类似的事情,但仍然解析成一个数组,尽管它手动标记了输入。关于做什么的任何想法?谢谢

    文本文件说明
    文本具有以下格式...

    <--1stSection-->
     /**
      * 第一节的格式如下
      * xCoordinate;yCoordinate;LocationName
      */

    12;13;纽约市
    40;12;华盛顿特区
    ...等

    <--2ndSection-->
     /**
      * 它实际上是一个邻接列表,但间接提供了“边缘”细节。
      * 它的形式
      * StartNode/MainReferencePoint;Endnode1;distance2endNode1;Endnode2;distance2endNode2;...等
      */

    费城;华盛顿特区;7;纽约市;2
    纽约市;佛罗里达;24;伊利诺伊州;71
    ...等

  • 0 投票
    3 回答
    15994 浏览

    c++ - 使用具有不同参数的 Boost Tokenizer escaped_list_separator

    您好,我一直在尝试使用 boost 库标记器类使标记器工作。我在 boost 文档中找到了本教程:

    http://www.boost.org/doc/libs/1 _36 _0/libs/tokenizer/escaped _list _separator.htm

    问题是我无法将参数转义为 _list _separator("","","");

    但是如果我修改 boost/tokenizer.hpp 文件,它就可以了。但这不是,理想的解决方案是想知道我是否缺少任何东西来将不同的参数放入转义的_list _separator。

    我想用 " 和 ' 将其拆分为空格以进行转义,并且在引用的字符串中没有转义字符。

    这用于游戏控制台系统中的参数解析系统。

    Visual Studio 2005 的错误是错误 C2974:'boost::tokenizer':'TokenizerFunc' 的模板参数无效,输入预期

    编辑:这个问题是由 ferrucio 提出的,并由彼得谢谢大家解释。

    0 投票
    1 回答
    613 浏览

    xpath - 使用 XPath 查找变量时,只取该变量的一部分

    我是 XPath 的新手。我正在编写一个代码来从页面中获取所有 3 位数字。它们不是恒定的,在 105、515 和 320 之间变化。我希望两个能够将这些数字标记为两个单独的部分......

    我希望能够在一个 X 路径表达式中获取第一个数字,在第二个 X 路径表达式中获取第二个数字

    在进行研究时,我发现您无法使用“零值”进行标记,但是有什么办法可以做到这一点?

    谢谢

    0 投票
    5 回答
    4623 浏览

    c - 如何从 C 中的字符串解析令牌?

    我如何从输入字符串中解析标记。例如:

    我希望输出为:

    “你好世界”

    0 投票
    1 回答
    966 浏览

    jquery - 在 jquery wordCount 中允许特殊字符和空格

    我正在使用带有 wordCount 的 jquery DynaCloud 来创建动态标记云。我有特定的术语要包含在云中(尽管每个用户的频率不同),其中一些术语是多个单词,或者有特殊字符(“&”、“'”、“”等)作为一部分的术语。

    我用特定的 html 块打破了条款:

    举个例子。

    wordCount 的工作方式(据我所知)是只接受特定的字符并在单词之间的空格上进行拆分。

    我一直在尝试编辑脚本以允许所有字符(包括特殊字符),并且只在<span class=tag>.

    但是,我所做的任何更改似乎都没有任何效果。

    知道如何更改此代码以获取标签之间的所有内容并在标签上中断吗?

    0 投票
    7 回答
    2552 浏览

    php - string slicing, php

    is there a way to slice a string lets say i have this variable

    i want to slice it in a way i want to pull latitude and longitude values in to seperate variables, subtok is not serving the purpose