问题标签 [file-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
perl - 需要删除除匹配字符串之外的整行
我需要的是:
我需要删除整行但需要保留匹配的字符串。
以 a开头Unhandled
和结尾的匹配模式:
我尝试了以下打印匹配模式的代码,但我需要从文件中删除多余的行。
以下是示例输入:
2012-04-09 01:52:13,717 - uhrerror - 错误 - 22866 - /home/shabbir/web/middleware.py process_exception - 217 - /user/resetpassword/: : {'mod_wsgi.listener_port': '8080 ', 'HTTP_COOKIE': "__utma=1.627673239.1309689718.1333823126.1333916263.156; __utmz=1.1333636950.152.101.utmgclid=CMmkz934na8CFY4c6wod_R8JbA|utmccn=(not%20set)|utmcmd=(not%20set)|utmctr=non-stick%20kadai%20online ; subpopdd=yes; _msuuid_1690zlm11992=FCC09820-3004-413A-97A3-1088EE128CE9; _we_wk_ls_=%7Btime%3A'1322900804422'%7D; _msuuid_lf2uu38ua0=08D1CEFE-3C19-4B9E-8096-240B92BA0ADD; nevermissadeal=True; sessionid=c1e850e2e7db09e98a02415fc1ef490; __utmc =1; __utmb=1.7.10.1333916263; 'wsgi.file_wrapper': , 'HTTP_ACCEPT_ENCODING': 'gzip, deflate'}
java - java FileChannel 写入文件并在末尾添加 \n
我正在尝试使用 FileChannel 制作日志。由于某种原因,它没有在我的文件中获得 \n 字符。
我的功能:
这是我的输出文件:
php - 检查上传的文件是否在 php 中属于不安全的文件类型
我有一个文件上传表单,需要对上传的文件进行检查,以确保它不是任何可能导致服务器出现问题的东西(即:可执行文件)。这些文件主要是图像,但我将处理原始文件格式的其他扩展,可以是许多不同的扩展名。所以,我觉得最简单的方法是检查不是我不想要的东西的列表,而不是我做的事情。
做这个的最好方式是什么?理想情况下,可以在 Windows 和 linux 服务器上运行的东西,但如果现在两者都适用,则主要是 linux。
c - C从文件中读取,它读取“@”
我正在尝试读取 C 中的文件。但是当我读取并将其写入标准输出时,它会打印 @ 也没有在我的文件中。是什么原因?
输出:
1234567891@2345678912@3456789 12@3456789 12@
档案:123456789123456789123456789
python - python 是否能够进行 MATLAB 等效矩阵运算?
我在 MATLAB 中实现了对 216x216 矩阵进行操作的代码,这些矩阵包含数字数据和有时是字符串。我对这些矩阵所做的操作大多类似于过滤某个阈值以上的矩阵,找到所有高于某个值的矩阵索引,找到一个高于 X 的值列表,然后找到它们之间的连续差异,一些字符串替换操作。做矩阵点积等。我需要访问数千个文件来生成这些矩阵(我在 MATLAB 中使用的 dlmread)。
现在我需要用通常与操作系统捆绑在一起的任何其他语言来实现上述项目,比如 Perl、c 或 python 或开源语言。
我做了一个简短的搜索,发现 python 是一个很好的研究工具。python 是否有一些用于矩阵运算的 MATLAB 等价物(例如将文件直接读入数组、查找、dlmwrite 等)
因为我的代码已经有很多没有这些 MATLAB 函数的循环,所以代码会变得更加混乱且难以维护。
或者你能指出任何其他的选择。我熟悉小 Perl,但不熟悉 python 或 R。
php - 从 Dropbox 为数百名用户处理数千个文件的最佳方式
在基于 PHP 的网站上,用户将授予 Dropbox 应用程序使用其 Dropbox 文件夹的权限,然后用户将数千个文本文件放入此文件夹中,可能一次,可能连续,我需要处理,保存到数据库并显示如果用户登录到网站,则尽快获得结果(我想几乎实时处理和输出)。用最少的资源做到这一点的最佳技术是什么?首先,我需要为 30 人做这件事,但后来它必须立即与数百个用户一起工作。每个用户将拥有数千个文件,有些文件需要处理不止一次(它们正在增加),而其他文件则不需要。
我坚持我在无限循环中运行命令行 php 脚本,该脚本从 Dropbox 复制并定期为每个用户处理文件,但它似乎太慢了。对 Dropbox 服务器的 API 调用似乎很慢,因此连续调用可能不是最佳选择。
更好的方法可能是用户单击网站上的“导入”按钮,脚本仅获取当前单击该按钮的用户的文件。
你有什么建议?它不一定是 PHP。我有一个专门的服务器,但我也想听听托管友好的解决方案。
也许为我提供另一种简单、安全和快速的方法,将这些文件作为 Dropbox 方法获取到服务器。(我选择这样做,因为 Dropbox 对用户来说非常容易设置、使用,同步非常可靠、安全和快速。)
json - 使用杰克逊解析一个非模式化 json 的大文件?
我在磁盘上有一个非常大的 .json 文件。我想使用 Jackson 解析器将其实例化为 Java 对象。
该文件如下所示:
基本上它是一个很大的对象数组,每个对象都有两个标识它的字符串属性,然后是另一个内部对象数组,其中每个对象是属性和值的随机集合,这些属性和值主要是字符串和整数,但也可能包含数组。
由于这种对象布局,我没有可以用来轻松实例化这些对象的集合模式。使用 org.json 处理器需要尝试为整个文件分配一个字符串,这通常由于其大小而失败。所以我想使用流解析器,但我完全不熟悉它。
最后我想要的是一个 Map,其中 String 是 prop1 的值, SomeObject 是保存整个对象数据的东西(顶级数组条目)。也许只是 JSON 可以稍后在需要时进行解析?
无论如何,欢迎有关如何为此编写代码的想法。
haskell - 文件处理-Haskell
如何在haskell中实现以下内容:
- 我从命令行收到一个输入文件。此输入文件包含用制表符、换行符和空格分隔的单词。
- 我必须用逗号替换这些元素(制表符、换行符和空格)。
- 然后将结果写入一个名为
output.txt
.
任何帮助深表感谢。我的 Haskell 技能仍在发展中。
到目前为止,我有这个代码:
在 processFile 函数中,我应该处理输入文件中的文本。
pipe - 如何在 Linux 下创建一个行为类似于管道的目录
我们想创建一个相对简单的文档存储但是有一些要求。我的想法是,当文件立即到达存储时,由单独的工具/守护程序扫描和处理文件。
(伪)DMS 应该通过 NFS 和 Samba 提供访问。正如我到目前为止所看到的,管道可以很好地将传入的文件传递给一些钩子。但我想知道是否有办法将目录创建为管道。我只见过命名管道。
应该在此目录中获取任何传入文件的过程是一个 PHP 脚本,它应该执行 MIME 类型猜测、CRC32 检查(针对 DB 中的值)......有人提示如何执行此操作吗?
编辑:我希望下面的解释更清楚一些 - 我正在寻找一种通过 Samba 和 NFS 提供“端点”的方法,其中可以放置由病毒扫描和元进程立即处理的文件(并最终存储) .
multithreading - 根据文件大小对java中的线程进行负载均衡
嗨,我需要通过 java 中的多线程处理大量文件。这些文件将是随机大小(最小:100 MB,最大:1.5GB)。配置是我最多只能创建 8 个线程,每个线程将从源目录分配 8 个文件进行处理。问题有时是巨大的文件被分配给单个线程本身,从而降低了性能。我想知道是否无论如何都可以将文件分配给线程,以便所有线程都将处理相同数量的大小。我的意思是我想根据文件大小平衡线程之间的负载。
提前致谢 :)