0 投票

2 回答

1733 浏览

python - 使用python从同一目录中的多个文件中提取特定行

我有多个名为 ParticleCoordW_10000.dat、ParticleCooordW_20000.dat 等的文本文件……这些文件都看起来像这样：

我想用python提取单个粒子的坐标，让我们说ATOM ID：673。问题是ATOM ID：673的行位置在每个文本文件中都会发生变化。所以我想让 Python 能够在目录的每个文本文件中找到 ATOM #673 并保存相关的 xyz 坐标。

以前我使用这样的东西来获取所有坐标：

有没有办法修改这个脚本以执行前面描述的任务？

编辑：根据各种评论，我写了以下内容：

这允许我在目录中的所有文本文件中对单个粒子的所有坐标进行分组。但是，我希望为所有粒子 ID（1000 个粒子）完成此过程。最有效的方法是什么？

2019-07-15T22:24:01.873

0 投票

2 回答

211 浏览

python - 我如何在python中从txt文件制作字典

我有这个txt文件

我需要为我得到的每个标题制作字典，例如 A、B、C

python dictionary read-text

2019-10-10T19:49:18.923

0 投票

1 回答

917 浏览

python - 从特定格式的文本文件中获取 x 和 y 坐标到 python 中的有序字典中

我正在尝试以特定格式读取文本文件并从中提取坐标并将它们存储在有序的字典中。文本文件中的一组包含一个标题行，后跟 x 和 y 坐标。x, y 坐标始终.以\t(tab) 开头。一个文本文件包含多个这样的集合。我的想法是将每个集合的 x 和 y 提取到一个列表中，并将其附加到一个有序的字典中。基本上，最后，它将是一个列表的列表，列表的数量等于将附加到有序字典的集合的数量。

文本文件外观的图示：

我的代码：

理想情况下，我想要一个有序的字典，它会给我类似的东西：

但我的输出如下所示：

我从每个集合中获取列表的多个副本。例如，这里的XandY列表是从第一组复制而来的。可能与添加后清除列表有关，或者放置空列表XX和YY. 但是我已经多次尝试了多种变体，并且似乎得到了上面的输出或每行的列表，而不是有序字典中的每组列表。

有谁知道如何以我在理想情况下得到输出的方式格式化此代码？

python list loops ordereddictionary read-text

2019-11-21T13:20:02.177

0 投票

1 回答

78 浏览

machine-learning - 如何训练和阅读 Image/PDF 中的特定文本？

图像或 PDF 可能包含

**

印刷文字，
手写文字，
段落，
键值对，
复杂表。

**

在训练时，我们将为文档分配标签/关键字。测试时将查找标签并读取标签的结果。

machine-learning training-data pdftotext read-text image-text

2019-12-04T05:58:04.100

0 投票

1 回答

156 浏览

r - 使用 readtext 阅读 pdf 文本时，有没有办法确保 readtext 尊重列？

问题是我有一个横向格式化的 PDF 文档，其中包含三列文本，我试图使用 readtext() 将其读入 R。当它读入文本时，不是按顺序向下读每一列，而是在同一行文本的列之间读取。

简而言之，如果每列的第一行只是 1-10 的一串数字，第二行是 11-20 的字符串，则 readtext() 将其读入为“1234567891012345678910”而不是“1234567891011121314.. 。“ ETC。

有没有办法指定 readtext() 在我的导入过程中跟随列？

最好的，丹尼尔

r quanteda read-text

2019-12-14T14:44:28.230

0 投票

1 回答

96 浏览

microsoft-cognitive - 运行认知服务读取文本容器预览时出错

当我处理图像文件时，容器崩溃并显示以下错误消息

azureocr_1 | docker-entrypoint.sh: line 6: 9 Illegal instruction (core dumped) KMP_BLOCKTIME=1 KMP_HOT_TEAMS_MODE=1 OMP_WAIT_POLICY=PASSIVE LD_PRELOAD=/usr/local/lib64/libmklml_intel.so dotnet Microsoft.CloudAI.Containers.OneOcr.2.0.dll SecurityPrototype=true $* azureocr_azureocr_1 exited with code 132

我们运行 Docker 版本 18.09.7，构建 2d0083d

microsoft-cognitive read-text

2020-01-20T08:16:22.630

0 投票

1 回答

215 浏览

python - 如何在 pyspark 中读取简单的字符串文本文件？

我有一个保存在没有标题的文本文件中的字符串列表，并且想在数据块中的 pyspark 笔记本中打开并打印所有行。

此代码不打印行。我感谢您的帮助。

python pyspark azure-databricks read-text

2020-04-16T04:37:57.730

0 投票

1 回答

255 浏览

r - 如何使用 readtext 将多个 JSON 文件加载到 quanteda 语料库中？

我正在尝试将大量 JSON 文件从新闻网站加载到 quanteda 语料库中readtext。为了简化过程，JSON 文件都在工作目录中。但我也在他们自己的目录中尝试过它们。

当c()用于创建显式定义一小部分文件的变量时，readtext可以按预期工作，并且使用corpus().
list.files()当尝试使用列出所有 +1500 JSON 文件来创建变量时readtext，无法按预期工作，将返回错误，并且不会创建语料库。

我试图检查定义文本集（即c()和list.files()）以及paste0().

产生的错误extracted_texts <- readtext(b, text_field = "maintext")如下

这很令人困惑，因为调用 with 的相同文件a不会产生错误。我验证了几个 JSON 文件，它们在每种情况下都返回 VALID (RFC 8259)，即 JSON 的IETF 标准。

a检查和之间的差异b：

typeof()返回和。"character"_ab
is.vector()并is.atomic()返回TRUE两者。
is.list()两者都返回FALSE。
它们在 RStudio 中和在控制台中调用时看起来相似

我真的很困惑为什么a有效而b无效。

最后，尝试完全模仿readtext 文档中使用的程序，还尝试了以下操作：

这也返回了错误

在这一点上，我很难过。提前感谢您对如何前进的任何见解。

解决方案和总结

不干净的数据：一些输入 JSON 文件有一个空main_text字段。这些对分析没有用，应该删除。"title_rss"所有文件都包含一个名为null的 JSON 字段。这可以通过目录级别的查找和替换来消除，用 Notepad ++，或者可能是 R 或 Python，尽管我仍然缺乏这方面的技能。此外，这些文件不是 UTF-8 编码，这已通过Codepage Converter解决。
调用目录字符串的list.files()方法：readtext How to Use文档和一些第三方教程中使用了该方法。此方法适用于 *.txt 文件，但由于某种原因，它似乎不适用于这些特定的 JSON 文件。一旦 JSON 文件被正确清理和编码，下面的方法就可以正常工作。如果它data_dir被包装在一个list.files()函数中，它会产生以下错误： Error in list_files(file, ignore_missing, TRUE, verbosity) : File '' does not exist.我不知道为什么会这样，但是将其保留对这些 JSON 文件有效。

使用未修改的文件进行测试，其中一个已知有空字段

输入： 5 个文件，其中 4 个不带空或 nulltext_field和 1 个带 null 的文件text field。此外，所有文件都具有西欧 (Windows) 1252 编码。

错误：

结果：由 5 个文档组成的正确格式的语料库。一个文档缺少标记或类型。尽管存在错误，但语料库似乎可以正常构建。由于编码问题，可能某些特殊字符无法正确显示。我无法检查这一点。

使用已知没有空字段的已清理文件进行测试

输入文件： 4 个没有空或空 JSON 字段的文件。在所有情况下，都text_field包含文本并且该title_rss字段已被删除。每个文件都从西欧 (Windows) 1252 转换为 Unicode UTF-8-65001。

错误：无！

结果：正确形成的语料库。

非常感谢两位开发人员的详细反馈和有用的线索。对援助深表感谢。

r json quanteda read-text

2020-05-13T01:01:57.730

0 投票

1 回答

47 浏览

python-3.x - 如何将多个 url 的内容打印到一个 txt.file 中？

下午好，我是堆栈溢出的新手，所以如果我的问题格式不正确，我提前道歉。

我有一个这样的 URL 列表（但还有更多），

我想将内容写入一个 txt.file。使用其中一个 URL 可以正常工作。我执行以下步骤来实现它：

txt.file 看起来像这样（这只是文本文件的一个小示例，但它与下面显示的相同，只是不同的公司名称......等等）：

我尝试使用以下代码将所有 URL 的内容放到一个文本文件中

但它不起作用。

谁能帮我将 URL 列表中每个 URL 的内容放到一个文本文件中？

先感谢您。

python-3.x url web-scraping python-requests read-text

2020-06-03T00:52:24.810

0 投票

1 回答

263 浏览

arrays - 如何使用 VBA 逐行读取文本文件并放入 excel 工作表单元格？读取线不工作

我正在使用下面的代码。它不是将数据逐行放入单元格中，而是将所有数据放入一个单元格中。附上图片供您参考。还附上了我正在阅读的示例文本文件。请注意，当我尝试在写字板中打开此文本文件并保存它时，它可以正常工作。

单击此处下载存在此问题的示例 txt 文件

arrays excel vba read-text

2020-06-23T09:13:17.800

问题标签 [read-text]

解决方案和总结

使用未修改的文件进行测试，其中一个已知有空字段

使用已知没有空字段的已清理文件进行测试

Reference