1

我有一个 csv 文件,第一列是由数字和大写字母组成的产品代码列表,第二列是第一列产品图片名称的可用空间

我还有一个包含几乎所有图片的文件夹,但图片的代码是产品代码的子字符串(编辑:前缀)。图片和产品之间的匹配是一对多的,所以一个产品共享同一张图片。例如:

3234P3001 and 3234P3002 have the same picture 3234P30

我需要制作一个 shell 脚本来扫描 csv 文件中的代码列表,如果有一张图片的名称是该代码的子字符串,它会在第二列中写入该图片的名称

这是我的第一个大项目,我没有数据处理经验。

找到图片之间的最大子串是我的产品图片。

4

3 回答 3

2

您可以即时组装sed脚本,替换每个存在的图像文件

#!/bin/bash

sed -i -f <(
    find images/ -type f -name '*.jpg' | LANG=C sort -r | 
    while read imagename
    do
        basename=$(basename "$imagename" .jpg)
        echo "s#^\\($(printf "%q" "$basename")[^;]*;\\);#\\1$imagename;#"
    done) "$@"

笔记:

  • 该脚本是一个动态编译的 sed 脚本
  • 我对文件名进行降序排序(因此将首先处理具有公共前缀的最长图像名称)
  • 我只扫描图像目录一次(为了性能,也为了能够创建可预测的结果)
  • 更新:现在使脚本实际处理具有公共前缀的图像(例如3234.png,以及3234P30.png)。最长的比赛将占上风 - 因为sort -r步骤)

示例:对于输入文件

3234P3001;;aa
3234P3002;;bb

script.sh input会导致

3234P3001;/tmp/images/3234P30.png;aa
3234P3002;/tmp/images/3234P30.png;bb
于 2013-10-29T00:20:10.683 回答
2

这几乎可以满足您的需求。

假设您的产品代码存储在一个名为 products.csv 的文件中,如果您将下面的代码保存在一个名为“go”的文件中,那么执行

chmod +x go
./go < products.csv

它可能需要一点点调整......

#!/usr/bin/perl

use strict;
use warnings;
use Data::Dumper;
use Cwd;

my $Debug=1;        # Set to 0 to turn off debug output
my $photosdir="/tmp";   # Or wherever your photos are

# Go to photos directory and load names of all JPEGs into array @photos
chdir $photosdir or die "Unable to chdir() to $photosdir\n";
my @photos=<*.jpg>;

# Debug - output photo filenames
print Dumper @photos if $Debug;

# Read product codes from our stdin
while(<>){
   chomp;
   my $product = $_ ;
   $product =~ s/;.*//;

   print "Finding photo for product: $product\n" if $Debug;

   # Run through all photo filenames and find longest match
   my $longestmatch=0;
   my $bestimage="<NONE>";

   foreach my $photo (@photos){
         # Strip extension off photo name
         $photo =~ s/\.jpg//;

         print "Assessing photo $photo\n" if $Debug;

         if($product =~ m/(^$photo)/ ){
            my $matchlength = length($&);
            if($matchlength > $longestmatch){
               print "Best match so far: $photo, ($matchlength characters)\n" if $Debug;
               $longestmatch = $matchlength;
               $bestimage = $photo . ".jpg";
            }
         }
   }
   print "$product,$bestimage\n";
}

实际上,您可以使用散列更优雅、更快地完成它。与其查看数千张照片中的每一张,直到找到最长的匹配项,不如尝试查看产品的前 n 个字母是否在哈希中,如果不是,则尝试前 n-1 个字母,然后尝试前 n-2 个字母, 像这样。对于大量产品和照片,它应该运行得更快。

#!/usr/bin/perl

use strict;
use warnings;
use Data::Dumper;
use Cwd;

my $Debug=1;        # Set to 0 to turn off debug output
my $photosdir="/tmp";   # Or wherever your photos are

# Go to photos directory and load names of all JPEGs into array @filenames
chdir $photosdir or die "Unable to chdir() to $photosdir\n";
my @filenames=<*.jpg>;

# Now create hash of photonames without ".jpg" extension
my %photos;
for my $photo (@filenames){
   $photo =~ s/\.jpg//;
   # So if there was a file "xyz.jpg", $photos{"xyz"} will be defined
   $photos{$photo}=1;
}

# Debug - output photo filenames
print Dumper \%photos if $Debug;

# Read product codes from our stdin
while(<>){
   chomp;   # remove end of line
   my ($product,$field2,$field3) = split ";";

   print "Finding photo for product: $product\n" if $Debug;

   my $bestimage="<NONE>";  # Preset and overwrite if better one found

   # Keep removing last character of product till it matches a photo
   for(my $i=length($product);$i;$i--){
      my $short = substr($product,0,$i);
      print "Trying $short\n" if $Debug;
      if(defined($photos{$short})){
         $bestimage = $short . ".jpg";
         last;
      }
   }
   print "$product;$bestimage;$field3\n";
}
于 2013-10-29T23:09:24.517 回答
0

由于您尚未指定您的问题是什么或您尝试过什么,这里有一些伪代码可以帮助您入门:

foreach line in csvfile {
   code = get first column(line)
   foreach filename in folder {
      if(filename is a substring of code) { 
         //match!
         write to file ("code, filename")
         break;
      }
   }
}
于 2013-10-29T00:15:55.023 回答