问题标签 [extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1269 浏览

ruby-on-rails - 在 Rails 中创建和提取 tgz 存档

有谁知道如何使用 Rails 将文件夹及其包含的文件存档为 tgz 存档?我想做的是存档文件夹的内容,然后有另一个脚本提取已存档的同一文件夹。

我遇到的所有存档技术都非常复杂,我想知道是否有一个简单的解决方案来解决我正在寻找的东西。

0 投票
3 回答
1385 浏览

python - 正则表达式 (Python) 从 < 和 > 内部提取文本字符串 - 例如ETC

我目前正在使用 Stack Overflow 数据转储,并试图构建(我想象的是)一个简单的正则表达式来从字符内部提取标签<名称>。因此,对于每个问题,我都有一个或多个标签的列表,例如<tagone><tag-two>...<tag-n>,并且试图仅提取标签名称列表。以下是从数据转储中获取的一些示例标记字符串:

作为参考,我不需要将标签名称划分为单词,因此对于<best-practices>我想返回的示例best-practices(不是bestand practices)。此外,对于它的价值,如果它有任何区别,我将使用 Python。有什么建议么?

0 投票
1 回答
85 浏览

web-services - 从哪里获取/提取世界行政区域的关系数据?

我正在开发一个在services上运行的网络应用程序。每个服务通常在一些(可能是几个不同的)地理域上提供,如城市、县、地区、州、国家或全球。

典型任务:

  • 用户将提交他们的位置为 lng,lat,我需要找到可供他们使用的服务
  • 当用户添加新服务时,他们应该能够选择覆盖服务区域的最小地理域,例如:US->California->SFBayArea。

我想知道表示地理域的层次关系以及从哪里获取地理域的实际数据的最佳数据库模式是什么?

我从openstreetmap开始,虽然它看起来相当复杂并且需要相当长的时间。所以我决定呼吁社区智慧:)

感谢您分享您的智慧!祝你今天过得愉快!

--UPDATES:更新了典型任务

0 投票
1 回答
255 浏览

compression - 仅对目录的文件进行焦油处理

如果我有一个包含一堆图像的文件夹,我怎样才能只 tar 图像而不是导致图像的文件夹结构而无需 CD 进入图像目录?

tar czf images.tgz /path/to/images/*

现在提取 images.tgz 时,提取的内容是 /path/to/images/...

我如何只能将图像包含在 tgz 文件中(而不是导致图像的三个文件夹)?

0 投票
2 回答
426 浏览

html - HTML数据提取

我正在访问一些网站,我需要提取一些数据。更具体地说 - 从这部分:

我需要提取“名称”部分。我听说正则表达式不是最好的解决方案,所以我想问一下访问我需要的这条数据的最佳方法是什么。

0 投票
2 回答
474 浏览

parsing - 从句子/查询中提取位置的方法有哪些?

我想识别并提取句子中的位置。例如我可能有一句话:

“我喜欢马萨诸塞州波士顿的披萨。” 但同样的句子也可以写成“波士顿的披萨,我喜欢它”。或者“我喜欢波士顿的披萨。”

所以我必须能够在句子的任何地方找到它,如果不包括状态的话。为了使事情变得更加复杂,人们会做 ft. 或 s 之类的事情。对于堡垒或南部,所以我也需要一种方法来识别这些。

0 投票
1 回答
2008 浏览

python - Linux、Nativly(Python、C、Java)下如何提取office嵌入式OLE文件?

我正在尝试将嵌入 Word 文档中的 Excel 文档提取为 OLE,但它失败了。

我需要将它放在服务器端脚本中,因此需要控制台或脚本。并且自动化开放式办公室非常耗资源..

是否有任何工具或库可以做到这一点?请帮忙..

0 投票
2 回答
4293 浏览

android - 将 Zip 提取到 SD 卡非常慢。如何优化性能?

我的应用程序下载了一个包含大约 350 个文件的 zip。JPG 和 HTML 文件的混合。我编写的函数工作得很好,但解压缩需要永远。起初我认为原因可能是写入 sd 卡很慢。但是当我用手机上的其他应用程序解压缩相同的 zip 时,它的运行速度要快得多。我可以做些什么来优化它吗?

这是代码:

感谢 CommonsWare,我修改了我的代码,如下所示:

性能差异大。非常感谢。

0 投票
3 回答
2491 浏览

pdf - 在超链接位置提取 PDF 文本

有人知道某种(免费)SDK 可以在 PDF 文档中超链接带您到的位置(在同一个 PDF 文档中)开始文本提取吗?这些链接最终将我们带到特定页面上的特定点。

更具体地说,我们需要一个可以解析包含测试问题和答案(以及每个问题/答案的相关注释)的 pdf 文档的程序,并且只将我们需要的相关部分导出到文本文件中。

基本上,PDF 文档在文档开头有测试问题,每个问题中都有一个超链接,指向 PDF 文档另一部分的答案和相关注释。

PS - 使用以下语言之一:C++、Java、VB.net、C#.net、javascript PPS - 仅限免费软件

0 投票
5 回答
7032 浏览

python - 监控 ZIP 文件提取 Python

我需要解压缩一个 .ZIP 档案。我已经知道如何解压缩它,但它是一个巨大的文件,需要一些时间来解压。我将如何打印提取完成的百分比?我想要这样的东西: