1

我正在尝试编写一个大型 python/bash 脚本,将我的 html/css 模型转换为 Shopify 主题。此过程中的一个步骤是更改所有脚本源。例如:

<script type="text/javascript" src="./js/jquery.bxslider.min.js"></script>

变成

<script type="text/javascript" src="{{ 'jquery.bxslider.min.js' | asset_url }}"></script>

这是我到目前为止所拥有的:

import re
test = """
  <script type="text/javascript" src="./js/jquery-1.8.3.min.js"></script>
  <!--<script src="http://ajax.googleapis.com/ajax/libs/jquery/1.8.3/jquery.min.js" type="text/javascript"></script>-->
  <script type="text/javascript" src="./js/ie-amendments.js"></script>
  <script type="text/javascript" src="./js/jquery.bxslider.min.js"></script>
  <script type="text/javascript" src="./js/jquery.colorbox-min.js"></script>
  <script type="text/javascript" src="./js/main.js"></script>
"""
out = re.sub( 'src=\"(.+)\"', 'src="{{ \'\\1\' | asset_url }}"', test, flags=re.MULTILINE )
out

打印出来

'\n  <script type="text/javascript" src="{{ \'./js/jquery-1.8.3.min.js\' | asset_url }}"></script>\n  <!--<script src="{{ \'http://ajax.googleapis.com/ajax/libs/jquery/1.8.3/jquery.min.js" type="text/javascript\' | asset_url }}"></script>-->\n  <script type="text/javascript" src="{{ \'./js/ie-amendments.js\' | asset_url }}"></script>\n  <script type="text/javascript" src="{{ \'./js/jquery.bxslider.min.js\' | asset_url }}"></script>\n  <script type="text/javascript" src="{{ \'./js/jquery.colorbox-min.js\' | asset_url }}"></script>\n  <script type="text/javascript" src="{{ \'./js/main.js\' | asset_url }}"></script>\n'

到目前为止我有两个问题:

  1. 我用来转义正则表达式中的单引号的一些反斜杠字符显示在输出中。

  2. 我的捕获组正在捕获整个原始源字符串,但我只需要最后一个“/”之后的内容

答案:根据 Martijn Pieters 的有用建议,我查看了 ? 正则表达式运算符,并提出了这个解决方案,完美地解决了我的问题。此外,对于替换表达式,我将其封装在双引号中,而不是单引号,并转义双引号,最终删除了不必要的反斜杠。多谢你们!

re.sub( r'src=".+?([^/]+?\.js)"', "src=\"{{ '\\1' | asset_url }}\"", test, flags=re.MULTILINE )
4

2 回答 2

1

你的表达效果很好;Python 只是向您显示一个字符串文字,您必须在其中转义引号才能将其重新用作 Python 字符串。

如果您打印该值,则不会发生此类转义:

>>> re.sub( 'src=\"(.+)\"', 'src="{{ \'\\1\' | asset_url }}"', test, flags=re.MULTILINE )
'\n  <script type="text/javascript" src="{{ \'./js/jquery-1.8.3.min.js\' | asset_url }}"></script>\n  <!--<script src="{{ \'http://ajax.googleapis.com/ajax/libs/jquery/1.8.3/jquery.min.js" type="text/javascript\' | asset_url }}"></script>-->\n  <script type="text/javascript" src="{{ \'./js/ie-amendments.js\' | asset_url }}"></script>\n  <script type="text/javascript" src="{{ \'./js/jquery.bxslider.min.js\' | asset_url }}"></script>\n  <script type="text/javascript" src="{{ \'./js/jquery.colorbox-min.js\' | asset_url }}"></script>\n  <script type="text/javascript" src="{{ \'./js/main.js\' | asset_url }}"></script>\n'
>>> print(re.sub( 'src=\"(.+)\"', 'src="{{ \'\\1\' | asset_url }}"', test, flags=re.MULTILINE ))

  <script type="text/javascript" src="{{ './js/jquery-1.8.3.min.js' | asset_url }}"></script>
  <!--<script src="{{ 'http://ajax.googleapis.com/ajax/libs/jquery/1.8.3/jquery.min.js" type="text/javascript' | asset_url }}"></script>-->
  <script type="text/javascript" src="{{ './js/ie-amendments.js' | asset_url }}"></script>
  <script type="text/javascript" src="{{ './js/jquery.bxslider.min.js' | asset_url }}"></script>
  <script type="text/javascript" src="{{ './js/jquery.colorbox-min.js' | asset_url }}"></script>
  <script type="text/javascript" src="{{ './js/main.js' | asset_url }}"></script>

您可以使用?to+和限定词non - greedy*;匹配最小值而不是最大值。您还可以匹配任何不是引号的内容:?

r'src="([^"]+)"'

这更好地约束了正则表达式的那一部分;[^"]匹配任何不是双引号的字符。

在指定正则表达式模式时,通常使用 python 原始字符串文字 ( r'') 代替是一个好主意,这样可以省去很多关于哪些需要转义和哪些不需要转义的麻烦。使用原始字符串文字,您的替换模式可以简化为:

r'src="{{ \'\1\' | asset_url }}"' 

最后一行:

re.sub(r'src="([^"]+)"', r'src="{{ \'\1\' | asset_url }}"', test, flags=re.MULTILINE)
于 2013-02-20T15:14:49.890 回答
1

在不引起某些人的愤怒的情况下,您可以将其视为 xml。

txt = """<html>
<script type="text/javascript" src="./js/jquery.bxslider.min.js"></script>
<script type="text/javascript" src="./js/jquery.another.min.js"></script>
</html>
"""

import xml.etree.ElementTree as ET
import os
root = ET.fromstring(txt)

for e in root.findall('script'):
    e.attrib['src'] =  "{{ '%s' | assert_url }}" % os.path.basename(e.attrib['src'])

print ET.tostring(root)

给出:

<html>
<script src="{{ 'jquery.bxslider.min.js' | assert_url }}" type="text/javascript" />
<script src="{{ 'jquery.another.min.js' | assert_url }}" type="text/javascript" />
</html>

之后 xml 文档可能会有用;这一切都取决于你的 HTML 有多好和多好。

于 2013-02-20T19:40:45.320 回答