问题标签 [stripping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
738 浏览

regex - 如何使用 Perl 去除块注释?

我正在研究分析 DSL 的预处理器。我的目标是删除评论。块注释功能由%%之前和之后划分。根据语言的定义,我不必担心 %% 在字符串中。

我正在使用这个s///正则表达式。不幸的是,它似乎匹配了所有内容并将其清除:

我究竟做错了什么?

0 投票
3 回答
3302 浏览

nlp - 如何从 Project Gutenberg 文本中去除页眉/页脚?

我尝试了各种方法来从 Project Gutenberg 文本中剥离许可证,以用作语言学习项目的语料库,但我似乎无法提出一种无监督、可靠的方法。到目前为止,我想出的最好的启发式方法是剥离前 28 行和最后 398 行,这适用于大量文本。关于我可以自动剥离文本的方法的任何建议(这对于许多文本来说非常相似,但在每种情况下略有不同,还有一些不同的模板),以及关于如何验证文本已被准确剥离,将非常有用。

0 投票
4 回答
2799 浏览

php - (php) regexto 删除注释但忽略字符串中的出现

我正在写一个评论剥离器,并试图在这里满足所有需求。我有下面的代码堆栈,它删除了几乎所有的评论,但它实际上走得太远了。很多时间都花在了尝试、测试和研究匹配的正则表达式模式上,但我并不认为它们在每个方面都是最好的。

我的问题是,我也有“PHP 注释”(在标准代码甚至 PHP 字符串中并不是真正的注释)的情况,我实际上并不想删除这些注释。

例子:

最终发生的事情是它虔诚地剥离,这很好,但它留下了某些问题:

还:

也会导致问题,因为注释删除了该行的其余部分,包括结尾?>

看到问题了吗?所以这就是我需要的...

  • '' 或 "" 中的注释字符需要忽略
  • 同一行中使用双斜杠的 PHP 注释应该只删除注释本身,或者应该删除整个 php 代码块。

这是我目前使用的模式,请随时告诉我是否可以对现有模式进行改进?:)

您能给我的任何帮助将不胜感激!:)

0 投票
2 回答
173 浏览

html - Perl AJAX 从字符串中剥离 html 字符?

我有一个从文本文件中读取 html 标签的 Perl 程序。(我很确定这是有效的,因为当我在命令行上运行 perl 程序时,它会打印出应有的 HTML。)然后我将该“html”传递给网页作为对 ajax 请求的返回。然后我使用 innerHTML 将该字符串粘贴到一个 div 中。

问题出在:所有文本信息都到达了它需要的位置。但是“<”“>”和“/”正在被剥离。

有人知道这个问题的答案吗?

0 投票
2 回答
158 浏览

javascript - 为什么javascript会删除我的动态javascript?

我有一个调用函数的 javaScript:

功能是:

这很好用,只是它去掉了内联 javascript,例如:

另一个问题:这个 div

变成

0 投票
1 回答
181 浏览

url - 剥离 .htaccess 文件中 url 的结尾

我的网站上有数百个 404 错误的问题,这些错误是由表达式“URLONCLICK”和“%5C”以某种方式插入正确 url 的末尾引起的,我不知道它来自哪里,但我想要只需将其从 .htaccess 文件中的 url 末尾剥离即可。我怎么做?

即 www.mydomain.com/category/post-title/URLONCLICK www.mydomain.com/category/post-title/%5C

我想去掉这些网址的结尾,使它们看起来像:www.mydomain.com/category/post-title/

0 投票
1 回答
3498 浏览

unix - 如何在 Solaris Unix 中获取 GNU gsed 命令

我试图使用gsed -n '1~4p'命令只打印每 8 行出现的那一行,但显然它只能用 GNU sed 完成,但我似乎没有,怎么会我得到这个?

我一直在使用sed -n '1,${p;n;n;n;}',我不确定它是否做同样的事情,但它没有执行打印我的预期输出。

谢谢!

0 投票
3 回答
1637 浏览

linux - 根据 .config 剥离 Linux 内核源代码

是否有任何有效的方法(可能是通过滥用 gcc 预处理器?)来获得一组剥离的内核源代码,其中根据 .config 不需要的所有代码都被遗漏了?

0 投票
2 回答
137 浏览

ruby - 从 csv 文件中剥离单数 /

我有一个 csv 文件,其中有几个区域 / 没有进行任何操作,并且没有进行任何我想删除的操作。问题是,我在文件中还有其他项目有 / 我不想删除。

一个例子:

我想成为:

我该怎么做呢?我不能使用 gsub('^/', '') 因为它会去掉 /abc /foo /bar。而对于我的生活,我似乎无法找到一个“结束”。我希望 \Z 会起作用,但运气不好。

有接盘侠吗?

我一直在使用 fastCSV 进行很多迄今为止非常棒的操作。

0 投票
1 回答
769 浏览

drupal - TinyMCE 使用所见即所得模块在 Drupal 6 中剥离嵌入代码

我有一个 Drupal 6 安装,其中设置了所见即所得的配置文件以使用 TinyMCE。配置文件已打开媒体按钮。我已经定义了过滤后的 HTML 输入格式以允许使用<embed><object><param>标签,并将其设为所有角色的默认格式。当您使用媒体按钮(看起来像几帧电影的东西)并输入一个 url 时,会生成如下代码并在源代码中可见:

但是,当您预览或保存帖子时,不会呈现视频。

以下是允许的标签列表:

有人知道我做错了什么吗?我发现这篇最近的帖子似乎暗示您需要将 TinyMCE 设置为不使用 media_strict,但我不敢相信您必须添加自制模块才能使嵌入工作:http ://drupal.org/node/368388 #comment-5501684