问题标签 [text-database]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 将文本格式的固定宽度表格转换为dataframe/excel/csv
我有一些txt 格式的数据,有 38 列,如下所示:
除标题行外,大多数行都有缺失值。我想将此表转换为数组/数据框/excel。但它并没有像它在表格中看到的那样出现。
我尝试使用 python
我对使用什么分隔符感到困惑。
程序应该在单个空格之后寻找值。如果不存在值,则用 nan 填充它。怎么做?
提前致谢!
vector - 如何对 20newsgroups_vectorized 数据集进行向量运算?
当我20newsgroups_vectorized
通过
data
是<class 'scipy.sparse.csr.csr_matrix'>
形状
(18846, 130107)
如何按目标名称对数据进行子集化(例如,仅提取'rec.sport.baseball'
)并对那些稀疏行向量使用向量运算(例如,计算平均向量或距离)?
computer-vision - 读取 mjsynth 数据集图像的问题
最近我正在尝试训练一个文本识别网络。我尝试通过将mjsynth 数据集输入网络来开始训练。但是,数据集中似乎有一些图像是空白的。因此,在训练时,如果我直接将数据输入网络,它会在读取图像时产生错误,并且由于这个错误,训练会停止。有谁知道 mjsynth 数据集中的空白图像列表。这样我就可以从数据集中删除那些空白图像。
python - 日期的正则表达式 Python 多个依赖项
我有非结构化数据,我必须提取 BP 值和日期(具有不同的格式),如下所示。现在我有一个正则表达式函数来提取 Bp 值和 BP 值后面的日期。
我有一个特定情况,如图中突出显示的,其中日期后跟“已记录”一词,并且还有一个时间戳。
此外,还有日期出现在 BP 值之前的情况。我还需要提取该日期和 BP 值。
目前,我的代码给出了 BP 值和 BP 值之后的日期。现在我想要这个正则表达式以及如图所示的新案例来提取所有案例。
我在下面附上了正则表达式代码。
当前输出的图像如下所示,其中不包括日期。
如果有人需要访问数据,我也会以字符串格式附加数据。
体重:188 磅,体重 124 磅(56.2 公斤),身高:108.2 厘米体重:20.9 公斤体重指数:18 与父亲、母亲住在一起。,Vials BP 120/75 Hu 52" We 202 I (916 kg) BMI 36.95 kg/m 354 2 mi ,W197 Ib 8 oz (44.2 kg) SpO2 99% BMI 19.69 kg/m2 BSA 1.36 m2 ,重量 316kg ,HT: 160 厘米 WT:79.6 公斤 BMI:31.09,血压 106/63 02/27/2019,B/P - 收缩压 104,B/P - 舒张压 72,BP-坐姿 109/70 mmHg,BP:101/72 左臂,正常袖带,2018 年 9 月 25 日坐姿 123/76,收缩压 100 mmHg,舒张压 68 mmHg,BP 128/80 128/81 128/82 128/83,疼痛等级 0 1-10 氧饱和度 % 95 % HR 83 /min BP 144/68 mm Hg Ht , . _ 重复 BP 130/80。刚刚感觉她确定自己感觉 FM。计划奶瓶喂养 ,血压 106/64s/d 78th / 77th percentileqyy 左臂坐姿,血压 114/76 s/d 77th 7 goth percentileqyyy 右臂坐姿,
对此的任何帮助将不胜感激。
r - R - 查找顺序相反的单词的重复项
我有一个 data.table,其中有一列包含职业头衔名称。我想找出重复的职业,但以相反的顺序编写(例如作家广告和广告作家)。这是我的数据的简化版本以及我想得到的结果
这是我一直在使用的代码。
由于我正在处理相当大的数据集,这种方法非常耗时。
谢谢
php - if 语句仅检查 while 循环 PHP 中的最后一次迭代
我对编程很熟悉,但我面临的有点奇怪。if 语句仅适用于最后一次迭代:
输出: IN IN OUT OUT OUT OUT IN OUT IN BIN BOUT OUT OUT OUT OUT
但是,如果我添加一个 if 语句,它只会在最后一次迭代中执行:
输出:输出
文本文件:
python - 使用自动编码器降维后对数据进行聚类
我的目标是识别我的数据集中包含大约 10 个分类和/或数字列和 3 个文本描述列的集群。经过一些研究,我想到了一个3 个步骤的过程:
- 预处理我的数据(规范化我的 10 列并对文本数据执行 tf-idf - 形状类似于 (89,000, 41206) )经过一些处理后,我使用如下的列转换器:
(我也尝试使用 PCA:
但结果似乎并不真正相关和可用)
- 构建一个自动编码器来减少我的数据集的维度。首先,我将数据分成 2 份,然后创建自动编码器:
- 使用经典的聚类 ML 算法(knn、dbscan 或其他)
所以我有两个主要问题:
- 您对这些信息的信心程度如何,它会起作用?
- 我无法创建我的自动编码器。当我试图把它放在我的数据上时......
...我有一个错误:
TypeError:无法将 <class 'tensorflow.python.framework.sparse_tensor.SparseTensor'> 类型的对象转换为张量。内容:SparseTensor(indices=Tensor("DeserializeSparse_1:0", shape=(None, 2), dtype=int64), values=Tensor("DeserializeSparse_1:1", shape=(None,), dtype=float32), dense_shape =Tensor("stack_1:0", shape=(2,), dtype=int64))。考虑将元素转换为支持的类型。
我对我的错误进行了一些研究,我发现这个gitub 主题通过建议创建一个 SparseToDense-Layer 来提供解决方案。但是我很难将此解决方案适应我的代码。
提前感谢大家花时间阅读我;)
梅德里克
python - 如何将列表词典中的句子转换为纯文本以应用 NLTK
我对 Python 和一切都是一个菜鸟。
我正在尝试将一些 NLTK 用于我的应用语言学论文。但是有些东西一直在阻止 nltk 工具在数据集上工作。
我尝试了一些复制+粘贴+修改样式的代码。但没有成功。我应该如何准备我的数据集以应用 nltk(例如,查找每个句子的标点符号百分比。计数/消除停用词等)。我已经在另一个数据集中应用了这些特性,它们只是文本,没有包含在任何这些“['']”中。
我试图获得的输出是: