问题标签 [extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 以编程方式从域名中提取关键字
假设我有一个要分析的域名列表。除非域名是连字符的,否则我看不到一种特别简单的方法来“提取”域中使用的关键字。然而,我看到它在 DomainTools.com、Estibot.com 等网站上完成。例如:
有什么建议可以有效地完成这项工作吗?
编辑:我想用 PHP 写这个。
entity-framework - 是否可以使用 EF 将任何数据库的元素作为一组可查询的类?
我正在尝试制作一个应用程序,其中允许开发人员和最终用户从关系数据库(在运行时选择)中检索数据,而无需编写任何 SQL 代码(最好在与数据库交互时不使用字符串连接)。该应用程序的目的有两个:表达式树构建器的 GUI 和由它生成的树的 XML 序列化。
我想请教一些关于如何让事情顺利进行的指导或提示。我不想让其他人为我写这个 - 这是我的项目,我将成为编写代码的人。
所以我的问题是:
是否有可能仅在运行时仅使用连接字符串来创建对象模型并以集合的形式寻址 DB 的元素 - 例如所有表、视图、函数和存储过程的列表?
是否可以在扩展方法中使用上述列表的元素,以便构建表达式树?
我可以使用 Metadata Workspace 类和 ItemCollections 从只有 CSDL、SSDL 和 MDL 文件(但没有实体类)的数据库中检索这些列表吗?
我是否可以使用 LINQ to XML 来序列化表达式树的结果,或者我将不得不使用其他一些特定于实体框架的序列化技术?(如此处所示的示例:http: //msdn.microsoft.com/en-us/library/bb738528.aspx)
PS:以下是我迄今为止研究的一些笔记: 1. 例如,当 DataContext 仅接收到一个连接字符串时,DataContext.GetTable() 方法(是的,弱类型的,不是泛型的)没有检索任何数据。
我正在调用 EdmGen 工具以生成架构工件,到目前为止,我已经阅读了它们的属性,但我仍在尝试获取某种可以在 lambda 表达式中使用的元素列表(例如表格) ?
如果我理解正确,在实体框架中,我可以使用诸如 Metadata Workspace 和 ItemCollections 之类的类以及 EdmGen 工具来创建必要的对象集,用这些对象集将概念模式表示为应用程序中的对象模型。
我已经在这里和 MSDN 上浏览了其他相关主题的实体框架编程指南,但到目前为止,我还没有找到与此方案相关的任何信息。昨天拿到了《Programming Entity Framework》这本书,希望里面有一些答案。如果我找到任何线索,我会更新这个问题。
所以,困惑和仍在寻找,我提前感谢你对此事的任何帮助。
最好的问候, 鲍里斯拉夫
php - Simplehtmldom - 卷曲、循环、数组?
请原谅最有可能是一个愚蠢的问题。我已经成功地遵循了 simplehtmldom 示例,并从一个网页中获取了我想要的数据。
我希望能够将函数设置为遍历目录中的所有 html 页面并提取数据。我用谷歌搜索和搜索,但现在我很困惑,因为我在无知的状态下认为我可以(以某种方式)使用 PHP 在目录中形成一个文件名数组,但我正在努力解决这个问题。
而且我看到的很多例子似乎都在使用 curl。请有人告诉我应该怎么做。有大量文件。我已经尝试将它们连接起来,但这仅适用于通过 html 编辑器执行此操作 - 使用 cat -> 不起作用。
extraction - 如何从 ZFO 中提取附件?
有谁知道如何从 .zfo 文件(602 表单填充器)中提取附件。它是一种基于 openXML 的格式。
谢谢
jquery - 从 alt 属性中提取标题并插入到 div
我目前在网站上使用相当可爱的 jQuery slideviewer 1.1 插件,但想从显示的图像中提取 alt 属性并在适当的时候将它们插入到 div 中。
该插件的当前代码如下所示以供参考:
perl - 如何使用 Perl 的 CAM::PDF 提取 PDF 文档的第一段?
如何使用 Perl 的CAM::PDF提取 PDF 文档的第一段?
c++ - efficient TIFF tile extraction C++
I am working with 1gb large tiff images of around 20000 x 20000 pixels. I need to extract several tiles (of about 300x300 pixels) out of the images, in random positions.
I tried the following solutions:
Libtiff (the only low level library I could find) offers TIFFReadline() but that means reading in around 19700 unnecesary pixels.
I implemented my own tiff reader which extracts a tile out of the image without reading in unnecesary pixels. I expected it to be faster, but doing a seekg for every line of the tile makes it very slow. I also tried reading to a buffer all the lines of the file that include my tile, and then extracting the tile from the buffer, but results are more or less the same.
I'd like to receive suggestions that would improve my tile extraction tool!
Everything is welcome, maybe you can propose a more efficient library I could use, some tips about C/C++ I/O, some higher level strategy for my needs, etc.
Regards, Juan
extraction - 微软研究从网络中提取事实?
前段时间,我偶然发现了一个网站,该网站显然是微软研究从网络中提取事实的产品,更具体地说是来自维基百科。现在我想更好地了解它是如何工作的,但问题是我找不到它,也许有人知道我在说什么,可以给我方向或链接吗?
谢谢!
python - 处理大文件的最佳 Python Zip 模块是什么?
编辑:特别是压缩和提取速度。
有什么建议么?
谢谢
pdf - 从研究论文的 PDF 中提取信息
我需要一种从 PDF 文档中提取书目元数据的机制,以节省人们手动输入或剪切和粘贴它的时间。
至少,标题和摘要。作者名单和他们的隶属关系会很好。提取参考文献将是惊人的。
理想情况下,这将是一个开源解决方案。
问题是并非所有的 PDF 都对文本进行编码,而且许多 PDF 确实无法保留文本的逻辑顺序,因此只需执行 pdf2text 即可为您提供第 1 列的第 1 行、第 2 列的第 1 行、第 1 列的第 2 行等。
我知道有很多图书馆。它在我需要解决的文档上识别摘要、标题作者等。这永远不可能每次都实现,但 80% 将节省大量人力。