问题标签 [normalizing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
565 浏览

python - 如何使用 pywsd.utils 对 .txt 文件而不是句子进行词形还原?

我对 Python 很陌生,我尝试学习基本的文本分析、主题建模等。

我编写了以下代码来清理我的文本文件。与 NLTK 的 WordNetLemmatizer() 相比,我更喜欢 pywsed.utils lemmatize.sentence() 函数,因为它可以生成更清晰的文本。以下代码适用于句子:

但是我没有做的是对目录中的原始文本文件进行词形还原。我猜 lemmatize.sentence() 只需要字符串?

我设法读取文件的内容

但是这次代码未能删除一些关键字,如“n't”、“'ll”、“'s”或“'”,以及导致文本未清理的标点符号。

1)我做错了什么?我应该先标记化吗?(我也未能提供 lemmatize.sentence() 的结果)。

2)如何获得没有任何格式的输出文件内容(没有单引号和括号的单词)?

任何帮助是极大的赞赏。提前致谢。

0 投票
0 回答
162 浏览

neural-network - 具有极值的缩放/归一化时间序列

我正在研究用于时间序列模拟的卷积 GAN 模型。时间序列包括零售项目的历史时间序列需求(销售)数据。时间序列数据由具有不同销售模式的不同产品商店项目组成,具有不同尺度的输入值。在归一化或缩放时,存在一些具有非常大尺度的时间序列,例如最小-最大缩放,它们可以被视为极值。事实上,这对网络的训练有负面影响。我想知道用潜在的极值缩放或标准化时间序列数据的最佳方法是什么。谢谢。

0 投票
1 回答
1067 浏览

python - 如何在熊猫中缩放-1和1之间的数据

在此处输入图像描述

在此处输入图像描述

嗨,大家好!有人可以帮我解决这个问题。bh_df 是我正在使用的数据集。正如您现在所看到的,数据介于大约。79和77。我需要在-1和1之间缩放。提前谢谢你!我想做 x_max-x_min 的事情(建议在这里https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html),但我的最小数据点是 0,所以我不这么认为会做任何有用的事情。

0 投票
1 回答
147 浏览

python - 尝试规范化和更新权重时收到运行时警告

我正在尝试计算粒子过滤器中某些粒子的权重,然后相应地对这些权重进行归一化。我的代码:

但是,我收到错误消息:/Users/scottdayton/PycharmProjects/Uncertainty Research/particle.py:30: Ru​​ntimeWarning: 在 true_divide weights = weights = weights/n /Users/scottdayton/Uncertainty Research/particle.py:30 中遇到溢出: RuntimeWarning: true_divide weights = weights / n中遇到的无效值

0 投票
1 回答
452 浏览

python - MinMaxScaler 的奇怪输出

在学习 ML 的过程中,我对MinMaxScalersklearn 提供的内容感到困惑。目标是将数值数据标准化为[0, 1].

示例代码:

给出输出:

第一个数组[1, 2]变成[0, 0]了我眼中的意思:

  • 数字之间的比例消失了
  • 没有值(不再)具有任何重要性,因为它们都设置为最小值(0)。

我所期望的示例:

这将保存比率并将数字放入0 到 1的范围内。

我在MinMaxScaler这里做错了什么或误解了什么?因为考虑诸如时间序列训练之类的事情,将价格或温度等重要数字转换为上述破碎的东西是没有意义的?

0 投票
1 回答
391 浏览

c++ - 快速逆平方根算法是否比 C++ 的标准库 sqrt() 函数更快?

所以最近我偶然发现了这样的快速逆平方根算法。

我认为这是对我的 Ray Tracer 的一个很好的优化,因为我必须规范化很多向量,我只需要切换出这段代码。

但是,当我实现代码时,它最终会花费相同的时间。这是我使用的实现。

我想知道标准 c++ cmath 库中的 sqrt 函数是否与快速逆平方根算法一样好,或者可能不是,我错过了一个关键细节。

注意:Vec3D 只是一个大小为 3 的向量,它具有 x、y、z 参数,并且我重载了 * 运算符,以便当双精度数乘以向量时,它采用向量的标量倍数。

0 投票
0 回答
56 浏览

geolocation - 地理位置规范化器 - 批量请求

我正在做一个 POC 来规范化地址信息的功能。我在玩 Nominatim。我正在使用 nominatim 图像在我的本地机器上运行一个 docker 容器,并针对它执行我的请求。

现在一切正常,但应用程序必须能够每秒处理大约 1200 个地址。现在到服务器的往返将花费大约一秒钟,所以我永远无法在一秒钟内发出 1200 个请求。即使使用多线程和扩大服务数量,这也可能不会像这样工作。

我认为,如果我能够在一个请求中请求大量地址,那将节省大量宝贵的资源,但我在 Nominatim 中没有看到任何关于批量处理的文档。有谁知道这是否可能,如果没有,您是否知道可以在我们自己的服务器上使用的另一种支持此功能的工具?

我希望有人可以帮助我解决这个问题,并为我指明正确的方向。