问题标签 [data-preprocessing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
592 浏览

tensorflow - 错误:Tensorflow 预处理层未转换为 Tensorflow lite

使用 https://www.tensorflow.org/tutorials/structured_data/preprocessing_layers上的示例

我用自己的数据创建了一个模型。我想以 Tensorflow lite 格式保存它。我保存为 SavedModel,但在转换时,我遇到了很多错误代码。我遇到的最后一个错误代码;

代码;

这个错误代码的原因是什么?我的目标是在应用程序中嵌入这个带有 react native 的模型。谢谢你。

0 投票
2 回答
44 浏览

python - 我无法从这个特定数据集的日期列中提取年份

#Adjust Date Info

TSLA['date'] = TSLA['date'].astype(str)

TSLA['date'] = pd.to_datetime(TSLA['date'])

两列的数据类型都是对象。

我尝试.astype(str)在日期列上使用,然后使用 lambda 函数来提取 YYYY-MM-DD,但数据类型没有改变。应用时也不会抛出错误.astype(str)

.to_datetime也不行。

任何一列中都没有缺失值。我会感谢任何关于我做错了什么的意见?

由于我现在无法添加图像,因此日期列具有以下值:YYYY-MM-DD HH-MM-SS-HH-MM-SS

0 投票
0 回答
226 浏览

python - nltk 句子标记器无法正常工作

nltk.tokenize.sent_tokenize在所有时期都积极地标记句子,但并非所有时期都标记句子的结尾。

这是一个被错误地分解成许多句子的编造句子:

(see e.g. [5]), real-time i.e. reasoning etc. should be mentioned in ABC et al. for

>>> ['(see e.g.', '[5]), real-time i.e.', 'reasoning etc.', 'should be mentioned in ABC et al.', 'for']

我的要求是防止标记器在某些单词(例如e.g., i.e., etc., et al.. 有什么方法可以处理这个问题nltk吗?

更新:将上述所需的缩写添加到 PunktSentenceTokenizer 缩写中,根本没有帮助。我仍然得到相同的结果。

这是我尝试过的代码片段:

0 投票
1 回答
68 浏览

python - BraTS 数据标准化

我目前正在使用 BraTS18 数据集研究超分辨率算法。当涉及到 [-1, 1] 之间的数据规范化时,我遇到了问题。

起初我认为这些值在 [0, 255] 范围内,但正如我尝试的那样

我得到了值(32767.0),现在我对 BraTS flair 上的数据值的范围感到困惑。谁能告诉我应该如何执行像素归一化?

0 投票
2 回答
45 浏览

python - Python Pandas:如果字符串值列表== [无],则从数据框中删除行

我的数据框中有一列包含值列表。

我不知道如何从数据框中删除此 [none] 列表。我试过了,

但这仅在我将列转换为字符串时才有效。如何做到这一点?

0 投票
0 回答
20 浏览

machine-learning - 特征减少和类不平衡处理必须首先执行?

我正在研究特征提取和类不平衡问题,但需要先执行哪个问题的建议?特征减少/选择或首先处理类不平衡?

0 投票
0 回答
32 浏览

python - 当我使用 ID3 决策树时如何处理这些数据?

所以我的数据集看起来像这样:

我已经将它处理成这样:

如果我使用 ID3 作为决策树,我应该如何处理我的数据?

这里 1 行组合了 100 个 As 或 B,因此有 100 个特征。

0 投票
0 回答
85 浏览

python - ASR - Speech to Text - 如何通过将标签张量与音频样本数组的长度对齐来预处理音频文件的文字转录标签

我正在为端到端自动语音识别任务实施深度学习模型。我正在使用 LibriSpeech 语料库数据集。我在数据集的预处理中遇到了问题。至于音频(.wav)数据,我获取采样音频,然后提取 mfcc 特征,这代表我的输入张量。至于成绩单,我通过将具有相应索引的每个字符编码到字母字典中来生成一个数组。我的模型将输出一个长度等于 mfcc 特征张量的时间长度的张量,我希望有一个长度相同的标签张量,即将标签张量中的字符和/或单词编码对齐到音频文件中字符/单词的发音时间。为了更好地阐明我的意思,我在下面留下了一个我想要的python脚本,bu 在音素识别的情况下。我正在尝试对其进行修改以适应字符/单词识别的情况,但我不确定识别音频中话语的正确方法。在下面所示的情况下,音素文件脚本提供了音素出现在音频文件中的开始和结束时刻。在没有事先了解每个字符/单词进入原始音频的时间的情况下,是否也可以对字符/单词识别产生类似的结果?提前感谢您的回答。干杯 音素文件抄本提供音素出现在音频文件中的开始和结束时刻。在没有事先了解每个字符/单词进入原始音频的时间的情况下,是否也可以对字符/单词识别产生类似的结果?提前感谢您的回答。干杯 音素文件抄本提供音素出现在音频文件中的开始和结束时刻。在没有事先了解每个字符/单词进入原始音频的时间的情况下,是否也可以对字符/单词识别产生类似的结果?提前感谢您的回答。干杯

0 投票
2 回答
69 浏览

scala - Scala拆分了两个未分隔的单词

我有一个带有类似单词的语料库,applefruit它没有被我想做的任何分隔符分隔。因为这可能是一个非线性问题。我想仅当字典中的单词是语料库中单词的子字符串时才传递自定义字典进行拆分。

apple 如果我的字典在语料库中只有和 3 个单词aaplefruit, applebananafruit, bananafruit. 输出应该看起来像 apple , fruit apple, bananafruit, bananafruit

请注意,我不是在拆分bananafruit,目标是通过仅拆分字典中提供的文本来加快处理速度。我正在使用 scala 2.x。

0 投票
1 回答
116 浏览

python - 训练验证和测试集(生产数据)中的一种热编码

例如,我有以下火车。

经过一次热编码后,它变成

现在假设我在生产中有Danny一个新级别的测试数据name

在对此进行一次热编码后

基于上述情况,我有几个问题:

  1. 如何处理生产测试数据中分类变量的级别或值的新条目?
  2. 如何保持模型的输入特征大小(例如,训练数据为 6,测试数据为 5)?
  3. 在训练集中也是Tony特征 0,但在测试中它是特征 3;它会影响对训练模型的测试输入的预测吗?