这是我创建的第一个 Lambda 函数,在今天之前我从未编写过一行 Python。我确实有 Salesforce 的 APEX 语言的编程经验,所以我可以理解其中的大部分内容。
我有这个 Lambda 函数,它从 S3 抓取一个对象 (wav) 并将其发送到 AWS Transcribe。我希望 Transcribe 作业的名称是 S3 对象的名称,如果名称很简单,例如“recording.wav”,我可以完成。当我有一个像“4A6E388B48D454FA993D52611ADD1AB_INT - Integris Health_epowell@bcinsourcing.com_8082924979__2_X - Survey.wav”这样的复杂名称时,我的问题就出现了,因为特殊字符搞砸了。
有人能告诉我一个简单的方法来删除所有这些特殊字符并用下划线替换它们吗?我尝试使用 unquote_plus,但它并没有解决我的问题。
这是 lambda 代码:
import boto3
from urllib.parse import unquote_plus
#Create low level clients for s3 and Transcribe
s3 = boto3.client('s3')
transcribe = boto3.client('transcribe')
def lambda_handler(event, context):
#parse out the bucket & file name from the event handler
for record in event['Records']:
file_bucket = record['s3']['bucket']['name']
file_name = record['s3']['object']['key']
file_name_only = unquote_plus(record['s3']['object']['key'])
object_url = 'https://s3.amazonaws.com/{0}/{1}'.format(file_bucket, file_name)
response = transcribe.start_transcription_job(
TranscriptionJobName=file_name_only,
LanguageCode='en-US',
MediaFormat='wav',
Media={
'MediaFileUri': object_url
})
print(response)