问题标签 [text-database]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

18 问题

0 投票

1 回答

285 浏览

python - 将文本格式的固定宽度表格转换为dataframe/excel/csv

我有一些txt 格式的数据，有 38 列，如下所示：

除标题行外，大多数行都有缺失值。我想将此表转换为数组/数据框/excel。但它并没有像它在表格中看到的那样出现。

我尝试使用 python

我对使用什么分隔符感到困惑。

程序应该在单个空格之后寻找值。如果不存在值，则用 nan 填充它。怎么做？
提前致谢！

2020-02-07T14:57:55.543

0 投票

1 回答

36 浏览

vector - 如何对 20newsgroups_vectorized 数据集进行向量运算？

当我20newsgroups_vectorized通过

data是<class 'scipy.sparse.csr.csr_matrix'>形状 (18846, 130107)

如何按目标名称对数据进行子集化（例如，仅提取'rec.sport.baseball'）并对那些稀疏行向量使用向量运算（例如，计算平均向量或距离）？

vector scikit-learn text-database

2020-02-25T19:48:22.140

0 投票

1 回答

296 浏览

computer-vision - 读取 mjsynth 数据集图像的问题

最近我正在尝试训练一个文本识别网络。我尝试通过将mjsynth 数据集输入网络来开始训练。但是，数据集中似乎有一些图像是空白的。因此，在训练时，如果我直接将数据输入网络，它会在读取图像时产生错误，并且由于这个错误，训练会停止。有谁知道 mjsynth 数据集中的空白图像列表。这样我就可以从数据集中删除那些空白图像。

computer-vision dataset image-recognition text-recognition text-database

2020-03-30T10:14:00.963

0 投票

1 回答

47 浏览

python - 日期的正则表达式 Python 多个依赖项

我有非结构化数据，我必须提取 BP 值和日期（具有不同的格式），如下所示。现在我有一个正则表达式函数来提取 Bp 值和 BP 值后面的日期。

我有一个特定情况，如图中突出显示的，其中日期后跟“已记录”一词，并且还有一个时间戳。

此外，还有日期出现在 BP 值之前的情况。我还需要提取该日期和 BP 值。

目前，我的代码给出了 BP 值和 BP 值之后的日期。现在我想要这个正则表达式以及如图所示的新案例来提取所有案例。

我在下面附上了正则表达式代码。

当前输出的图像如下所示，其中不包括日期。

如果有人需要访问数据，我也会以字符串格式附加数据。

体重：188 磅，体重 124 磅（56.2 公斤），身高：108.2 厘米体重：20.9 公斤体重指数：18 与父亲、母亲住在一起。,Vials BP 120/75 Hu 52" We 202 I (916 kg) BMI 36.95 kg/m 354 2 mi ,W197 Ib 8 oz (44.2 kg) SpO2 99% BMI 19.69 kg/m2 BSA 1.36 m2 ,重量 316kg ,HT: 160 厘米 WT：79.6 公斤 BMI：31.09，血压 106/63 02/27/2019，B/P - 收缩压 104，B/P - 舒张压 72，BP-坐姿 109/70 mmHg，BP：101/72 左臂，正常袖带，2018 年 9 月 25 日坐姿 123/76，收缩压 100 mmHg，舒张压 68 mmHg，BP 128/80 128/81 128/82 128/83，疼痛等级 0 1-10 氧饱和度 % 95 % HR 83 /min BP 144/68 mm Hg Ht , . _ 重复 BP 130/80。刚刚感觉她确定自己感觉 FM。计划奶瓶喂养 ,血压 106/64s/d 78th / 77th percentileqyy 左臂坐姿，血压 114/76 s/d 77th 7 goth percentileqyyy 右臂坐姿，

对此的任何帮助将不胜感激。

python regex data-extraction text-database

user11870599

2021-03-12T01:43:18.170

0 投票

2 回答

44 浏览

r - R - 查找顺序相反的单词的重复项

我有一个 data.table，其中有一列包含职业头衔名称。我想找出重复的职业，但以相反的顺序编写（例如作家广告和广告作家）。这是我的数据的简化版本以及我想得到的结果

这是我一直在使用的代码。

由于我正在处理相当大的数据集，这种方法非常耗时。

谢谢

r duplicates data.table text-database

2021-04-05T20:35:51.830

0 投票

0 回答

27 浏览

php - if 语句仅检查 while 循环 PHP 中的最后一次迭代

我对编程很熟悉，但我面临的有点奇怪。if 语句仅适用于最后一次迭代：

输出： IN IN OUT OUT OUT OUT IN OUT IN BIN BOUT OUT OUT OUT OUT

但是，如果我添加一个 if 语句，它只会在最后一次迭代中执行：

输出：输出

文本文件：

php if-statement while-loop text-database

2021-08-11T13:39:21.427

0 投票

1 回答

78 浏览

python - 使用自动编码器降维后对数据进行聚类

我的目标是识别我的数据集中包含大约 10 个分类和/或数字列和 3 个文本描述列的集群。经过一些研究，我想到了一个3 个步骤的过程：

预处理我的数据（规范化我的 10 列并对文本数据执行 tf-idf - 形状类似于 (89,000, 41206) ）经过一些处理后，我使用如下的列转换器：

（我也尝试使用 PCA：

但结果似乎并不真正相关和可用）

构建一个自动编码器来减少我的数据集的维度。首先，我将数据分成 2 份，然后创建自动编码器：

使用经典的聚类 ML 算法（knn、dbscan 或其他）

所以我有两个主要问题：

您对这些信息的信心程度如何，它会起作用？
我无法创建我的自动编码器。当我试图把它放在我的数据上时......

...我有一个错误：

TypeError：无法将 <class 'tensorflow.python.framework.sparse_tensor.SparseTensor'> 类型的对象转换为张量。内容：SparseTensor(indices=Tensor("DeserializeSparse_1:0", shape=(None, 2), dtype=int64), values=Tensor("DeserializeSparse_1:1", shape=(None,), dtype=float32), dense_shape =Tensor("stack_1:0", shape=(2,), dtype=int64))。考虑将元素转换为支持的类型。

我对我的错误进行了一些研究，我发现这个gitub 主题通过建议创建一个 SparseToDense-Layer 来提供解决方案。但是我很难将此解决方案适应我的代码。

提前感谢大家花时间阅读我;）

梅德里克

python cluster-analysis autoencoder dimensionality-reduction text-database

2021-09-17T09:00:03.370

0 投票

0 回答

23 浏览

python - 如何将列表词典中的句子转换为纯文本以应用 NLTK

我对 Python 和一切都是一个菜鸟。

我正在尝试将一些 NLTK 用于我的应用语言学论文。但是有些东西一直在阻止 nltk 工具在数据集上工作。

我尝试了一些复制+粘贴+修改样式的代码。但没有成功。我应该如何准备我的数据集以应用 nltk（例如，查找每个句子的标点符号百分比。计数/消除停用词等）。我已经在另一个数据集中应用了这些特性，它们只是文本，没有包含在任何这些“['']”中。

我试图获得的输出是：

python nltk text-database

2021-11-09T21:02:14.517

1 2 3 4 5 6 7 8 9 10

问题标签 [text-database]

Reference