问题标签 [text-comparison]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
985 浏览

image - 文本作为图像和图形作为图像之间的区别

这个问题似乎很奇怪,但我需要问这个,因为当我将文本作为图像和图形作为图像进行比较时,我看到了一个非常有趣的输出。

理想情况下,我正在确定一种工具或算法来比较两个 pdf,生成将突出它们之间差异的输出。

pdf 中有一些可能性,它将文本作为图像格式(纸张上的旧文本被转换为 pdf)。

我们正在迁移那些遗留 pdf,最后我们正在与遗留和转换后的 pdf 输出进行比较。

我正在评估几个工具,如 Adob​​e dc pro、i-net pdfc 和 power pdf 等,用于比较两个 pdf。

在评估时,我可以看到 pdf 两侧的图形图像正在被比较(也不准确)。在完全忽略文本和图像的情况下,所有工具的结果都一致。

但我对作为图像的文本更感兴趣,因为我们处理更多的传统文本 pdf。

下面附上图形图像比较结果,它可以捕捉图像之间的差异。

图形图像

但是当我比较文本图像时,工具中没有突出显示差异。

文字图片

我从中了解到,文本不作为图像图形进行比较,工具完全忽略了比较。我想澄清我的假设是否正确。

其次,我想知道如何比较 pdf 中的文本图像以产生差异?

0 投票
3 回答
109 浏览

beyondcompare - BeyondCompare:如果通过宏不同,则替换前 6 位数字

我们正在使用 BeyondCompare 4 来比较两个文件。有没有办法以这样的方式使用 BeyondCompare,通过按下按钮,只有前 6 位数字从文件 A 复制到文件 B?

我不想复制整行,如果我们真的要替换第一个数字,我们需要检查和审查。所以我们不能通过宏使用任何自动替换。

例如:

审查后,新文件应该是 FileB 和 FileA 的第一行的第一个数字:

提前致谢,

0 投票
0 回答
1034 浏览

c# - Compare two word document in c#

I have a problem. I need to compare word document. Text and format in c# and i found a third party library to view and process the document and it is Devexpress. So i downloaded the trial to check if the problem can be solved with this

Example i have two word document

1: This is a text example

  1. This is not a text example

In the text above the difference is only the word not

My problem is how can i check the difference including the format?

So far this is my code for iterating the contents of the Document

With the code above i can navigate to the text and its format. But how can i use this as a text compare?

If I'm going to create a two list for each document to compare.

How can i compare it?

If i'm going to compare the text in with another list. Compare it in loop.

I will be receiving it as only two words are equal.

Can help me with this. Or just provide an idea how i can make it work.

I didn't post in the devexpress forum because i feel that this is a problem with how i will be able to do it. And not a problem with the trial or the control i've been using. And i also found out that the control doesn't have a functionality to compare text. Like the one with Microsoft word.

Thank you.

Update:

Desired output

This is (not) a text example

The text inside the () means it is not found in the first document The output i want is like the output of Diff Match Patch https://github.com/pocketberserker/Diff.Match.Patch

But i can't implement the code for checking the format.

0 投票
0 回答
90 浏览

expression - 尝试根据表值从表中生成表达式

我的 SSRS 报告创建了一个汇总表。我需要根据表中的 2 条数据进行计算,并将其作为表达式添加到报表底部。我的表达式错误,因为它没有从表中读取数据输出。

我已经跟进了所有可以找到的错误示例,但没有找到解决方案。我是 SSRS 的新手。我已经通过简单地使用 IIf 语句返回我正在寻找的值(没有我需要的其余计算)来测试表达式,并且它不返回任何一个值。结果我得到“#Error”。我直接从 SQL 代码中复制了查找值,所以我知道我的比较值中没有拼写错误。

我在我的表达式中有这个代码:

通过另一个stackoverflow问题,我找到了这段代码并将其添加到我的报告中:

我收到此错误:

textrun 'Textbox3.Paragraphs[0].TextRuns[0]' 的值表达式包含错误:[BC30455] Argument not specified for parameter 'divisor' of 'Public Function Divide(dividend As Double, divisor As Double) As Double '。

这是我的输出的样子:

加班 % #Error

(非常抱歉,我无法让列表缩进!)

我期待这是我的结果:

这就是我得到的:

0 投票
1 回答
50 浏览

python - 由于不同的字符编码,查找唯一元素的代码会给出重复的元素

我有一个包含重复名称列表的文本文件(其中一些带有重音字母,如 é、à、î 等)

例如列表:Précilia、Maggie、Précilia

我需要编写一个代码来输出唯一名称。

但是,我的文本文件似乎对两次出现的 Précilia 中的两个带重音符号的 é 具有不同的字符编码(我猜可能是 ASCII 代表一个,UTF-8 代表另一个)。因此,我的代码将 Précilia 的两次出现都作为不同的独特元素。你可以在下面找到我的代码:

预期产出:Prècilia、Maggie

实际输出和错误输出:Prècilia、Maggie、Prècilia

更新:原始文件是一个非常大的文件。我需要一种方法将这两种情况视为一个事件。

0 投票
3 回答
16148 浏览

reactjs - 使用 React、Webpack 和 Apache 启用文本压缩

据说compression-webpack-plugin应该这样做。

我用 npm 安装了插件

并编辑了我的 webpack.config.js 文件以包含

当我使用页面洞察检查网页加载速度时,我的 gz 文件似乎无法识别,或者至少其中一个无法识别

在此处输入图像描述

这是我的主目录

在此处输入图像描述


这个问题与我的问题非常相似。我试图避免使用 .htaccess,因为我在某处听说它不是最好与 react 和 webpack 一起使用。也许这是错误的?

我尝试使用 kushalvm 的解决方案,但它不适合我。

0 投票
0 回答
194 浏览

python - Python 快速文本文本分类

我正在尝试对使用快速文本文本分类的“好”短工作报告进行分类。在这个阶段,我只制作了一个标签“干扰行为”,我称之为 __label__int,因为我只是想看看它是否会起作用。我想将文本与它们与来自优秀报告的句子的匹配程度进行比较。我制作了自己的培训文本文档——其中的一个示例是:

__label__int 攻击性数据低且在出现时稳定。
__label__int 私奔频率已经减少到出现。
__label__int 财产破坏数据低且在发生时稳定。
__label__int 不合规频率在出现时停滞不前。
__label__int 发脾气持续时间较短且稳定在几分钟内。
__label__int 攻击频率呈上升趋势。
__label__int 哭泣百分比呈下降趋势。
__label__int 私奔频率呈下降趋势。

我写的代码是:

但我不断收到以下输出:

读取 0M 字 字数:94 标签数:1 N 0 P@1 nan R@1 nan 进度:100.0% words/sec/thread:12881 lr:0.000000 avg.loss:0.000000 ETA:0h 0m 0s

text_valid.txt 是我知道其中包含这些术语的文件之一,所以我期待一个很好的比较。我在网上找不到任何关于如何编写自定义标记数据集的信息。也许我的训练数据有问题?字太多?还是我的代码不完整?

0 投票
0 回答
24 浏览

speech-recognition - 识别音频文件中的重复句子

我正在搜索有关识别音频文件中重复语音片段的最佳方法的信息。

假设有人正在录制自己说的一段文字,有时他会被一句话噎住,停下来,然后从句子的乞求重新开始。他也可能对同一部分进行两次或三次拍摄,以便在最终剪辑中保留最好的部分。

所以我的问题是:将这些片段检测为相同或围绕相同文本变体的最佳方法是什么?

我在想的是做一些语音到文本,然后对结果进行一些文本比较。我将能够识别出非常接近的字符串,然后将相应的音频片段标记为“相同”。

但我想知道是否有某种方法可以直接在音频文件上执行此操作。我听说过音频指纹,但我不确定它是否会在这里起作用,因为这个人可能不会以完全相同的方式发音这两个句子(添加静音甚至稍微改变一些单词)。

是否有人已经做过类似的事情,或者已经使用过这些工具并且可以就它们的可能性和局限性给我反馈?