问题标签 [text-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python解析括号中的块
Python中解析匹配括号中包含的文本块的最佳方法是什么?
最初应该返回:
把它作为输入应该返回:
应该返回:
regex - 如何使用正则表达式进行 Erlang 模式匹配?
当我编写进行文本解析的 Erlang 程序时,我经常遇到我喜欢使用正则表达式进行模式匹配的情况。
例如,我希望我能做这样的事情,其中 ~ 是一个“组成”的正则表达式匹配运算符:
我知道正则表达式模块(re),但AFAIK你不能在模式匹配或守卫时调用函数。
另外,我希望匹配字符串可以以不区分大小写的方式完成。这很方便,例如,在解析 HTTP 标头时,我想做这样的事情,其中“Str ~ {Pattern, Options}”表示“使用选项选项将 Str 与模式模式匹配”:
两个问题:
您通常如何仅使用标准 Erlang 来处理这个问题?是否有一些机制/编码风格在简洁性和易读性方面接近于此?
Erlang 是否有任何工作(EEP?)来解决这个问题?
php - 使用 PHP 确定简短(500 到 1000 字)文本中提到的位置
我想找到一种方法来获取一段用户提供的文本,并确定文本中提到了地图上的哪些地址。我很乐意使用免费的网络服务(如果存在)或使用不会消耗太多资源的脚本。
我可以想象的一种方法是获取一个巨大的寻址数据库,并在文本中单独搜索它们中的每一个,但这似乎效率不高。有没有更好的算法或技术可以建议?
我的基本想法是获取位置信息并将其转换为谷歌地图上的标记。如果自动确定位置太困难或 CPU 密集型,我可以要求用户在必要时在位置字段中添加信息,但我不希望这样做,因为一些用户将是相当年轻的学生。
这需要在 PHP 中完成,因为这是我学校托管服务器上可用的脚本语言。
请注意,整个设置将在 Drupal 节点的上下文中进行,我计划使用过滤器从单个节点收集必要的位置信息,因此这种解析只会发生一次(当新文本进入数据库时) .
c#-2.0 - 使用 streamreader 读取包含此“//”的行?
读取任何行从“//”开始的文本文件,省略此行并移至下一行。输入文本文件有一些单独的分区。逐行查找过程和此标记。
nlp - 使用 NLTK 进行分块/文本解析
我正在尝试解析一些文本并绘制图表,就像你会写一个句子一样。我是 NLTK 的新手,正在尝试在 NLTK 中找到可以帮助我完成此任务的内容。到目前为止,我已经看到nltk.ne_chunk
和nltk.pos_tag
。我发现它们不是很有帮助,而且我找不到任何好的在线文档。
我也尝试过使用LancasterStemmer
,但我不完全理解它的作用或应该如何使用它,或者它为什么存在。
有人可以帮我解决这个问题吗?没有任何指路明灯,我真的很茫然,很沮丧。
提前致谢
machine-learning - 如何检测来自各种来源的表格数据
在我正在玩的一个实验项目中,我希望能够查看文本数据并检测它是否包含表格格式的数据。当然有很多情况看起来像表格数据,所以我想知道我需要研究什么样的算法来寻找共同特征。
我的第一个想法是编写一个长的 switch/case 语句来检查由制表符分隔的数据,然后是另一个 case 来检查由管道符号分隔的数据,然后是另一个 case 来检查以另一种方式分隔的数据等等。现在我当然意识到我必须列出要检测的不同事物的列表-但我想知道是否有比对每种类型进行相对较慢的搜索更智能的方法来检测这些特征。
我意识到这个问题并不是特别雄辩地提出,所以我希望它有一些意义!
有任何想法吗?
(也不知道如何标记这个 - 所以欢迎帮助!)
perl - 人们说“Perl 非常擅长解析”是什么意思?
人们说“Perl 非常擅长解析”是什么意思?
Perl 如何比 Python 或 Ruby 等其他脚本语言更好或更强大?
algorithm - 从文本中提取关键句子
你知道从文本中提取关键句子的有效方法吗?
我也想知道是否有一些软件实现
非常感谢
c# - 将文本文件读入自定义数据类
我有一个文本文件,其中包含整数、双精度或字符串的数据列。我想将每一行数据读入我自己的记录类。我事先知道列数据类型,所以我正在解析一个文本文件行,类似于下面的代码(我输入了它,所以不要抱怨有错误)。我没有列出所有的列,所以 switch 语句将有 74 个案例。我不知道这是否是最好的方法。有什么更好的方法来做到这一点?此外,它需要尽可能快。
parsing - 在 Java / C / Objective-C 中使用简单的通配符逻辑解析文本
我正在寻找一个快速的库/类来使用如下表达式解析纯文本:
文字是:<b>Name:</b>John<br><i>Age</i>32<br>
模式是:{*}Name:</b>{%}<br>{*}Age</i>{%}<br>
它会为我找到两个值:John
和32
. 目的是在不涉及重型工具的情况下解析简单的 HTML 网页。它不应该在内部使用字符串操作或正则表达式,但可能通过 char 解析来执行 char。