1

本周早些时候,我发布了一个关于如何将文件中的特定单词更改为数字的问题。作为我情绪分析工作的一部分。不幸的是,这对我来说不是正确的方法,我错误地解释了我的数据。所以我会用正确的方法重新问这个问题。

我有一个包含标记的特定单词列表,例如,即使它是 40 个单词,我也会使用 4 个单词。我需要使用列表将推文转换为 0 1 1 0 类型的格式。

我的列表如下(一个文本文件,每行 1 个单词):

  • :)
  • :(
  • 快乐的
  • 伤心

我的示例推文:

  • TWEET1:我觉得 python 很酷,它让我很开心 :)
  • TWEET2:今天是悲伤的一天 :(

输出应该是:

  • 推文1:1 0 1 0
  • 推文2:0 1 0 1

基本上每个数字都对应于令牌在列表中的位置。所以在 TWEET1 中,第一个 '1' 对应于列表中的位置一(即笑脸),第二个数字 '0' 对应于列表中的位置二(不开心的笑脸),因为在推文,它变成了“0”。第三个数字是'1',对应于列表中的第三位(快乐),因为它在推文中被发现......它变成了'1'......我希望我解释一下出色地。

我使用 python 编写了很多我的脚本/程序来操作在我的文件中找到的文本,所以我正在寻找一个 python 程序来为我做这件事。我对python很陌生,所以我希望有人能帮我写一个脚本来做到这一点。

我希望我解释得足够好,我自己花了一段时间才掌握这个概念。

谢谢 :)

更多信息:

  • 因为我的单词列表大约有 40 个单词,所以每条推文的输出至少是 40 位。例如

0 1 1 0 1 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0

编辑部分

下面给出的惊人答案不符合标准。它非常优雅地用数字替换单词。但不幸的是,这不是我需要的......

进一步的解释(它帮助我更好地理解它的方式)......

考虑一下:

TWEET1:“今天将是快乐的一天 :)”

  • 在读取该行之前,代码设置为“0 0 0 0”
  • 然后它检查第一个'0'......这意味着:检查列表中的第一个标记(笑脸)......可以在推文的任何地方找到它吗?回答:是的。因此代码变为....'1 0 0 0'
  • 接下来我们移动到第二个'0'(对应于不开心的脸)......我们可以在推文的任何地方找到不开心的脸吗?答案:不......因此第二个数字保持为“0”......我们的代码现在是“1 0 0 0”
  • 接下来我们移动到第三个数字,它对应于“快乐”这个词。这个词可以在推文的任何地方找到吗?答案:是的......我们的代码现在变成了 '1 0 1 0'
  • 现在我们移动到最后一位数字,对应于单词/标记“悲伤”......这可以在推文的任何地方找到吗?答案:不......因此最后一位数字保持为“0”
  • 我们的最终代码变为'1 0 1 0'

我希望这能更好地解释它:)

注意:代码对应于单词列表,而不是推文中的单词。

4

3 回答 3

5

这里:

wordlist = [':)', ':(', 'happy', 'sad']
tweets = ['I find python cool, it makes me happy :)', 'today is a sad day :(']
for tweet in tweets:
    print(' '.join(['1' if word in tweet else '0' for word in wordlist]))

输出:

1 0 1 0
0 1 0 1
于 2013-05-29T02:29:21.893 回答
2

描述

如果您必须使用正则表达式执行此操作,我将分两部分执行此操作。

第 1 部分将查找所有已知单词并将其替换为1. 将您已知的单词文件读入一个数组,然后使用 regex 或 symbol 加入该数组|。然后将该字符串嵌套到正则表达式中。

(?<=^|\s)(\b(?:happy|kittens|[:][)])\b\W?)(?=\s|$)

在此处输入图像描述

第 2 部分返回并用 . 替换所有10.

(?<=^|\s)\b(1[^\s]+|[^1]|[^\s]{2,})\b(?=\s|$)

在此处输入图像描述

例子

我不知道 python,但这是一个 php 示例,说明它的外观。

<?php
$sourcestring="I really like kittens, they make me happy.";
echo preg_replace('/(?<=^|\s)(\b(?:happy|kittens|[:][)])\b\W?)(?=\s|$)/i',' 1 ',$sourcestring);
?>

$sourcestring after replacement:
I really like 1 they make me 1



<?php
$sourcestring="I really like 1 they make me 1";
echo preg_replace('/(?<=^|\s)\b(1[^\s]+|[^1]|[^\s]{2,})\b(?=\s|$)/im',' 0 ',$sourcestring);
?>

$sourcestring after replacement:
0 0 0 1 0 0 0 1

概括

  1. 第1部分

    • (?<=^|\s)向后看以确保单词有空格或字符串的开头
    • (开始捕获组 1
    • \b消耗词边界
    • (?:启动非捕获组
    • happy|kittens|[:][)]分别匹配快乐、小猫或:)
    • )关闭非捕获组
    • \b消耗词边界
    • \W?捕获任何额外的非空白字符,这会吃一个标点符号
    • )关闭捕获组 1
    • (?=\s|$)要求单词末尾有空格或字符串结尾
  2. 第2部分

    • (?<=^|\s)向后看以确保单词有空格或字符串的开头
    • \b消耗词边界
    • (开始捕获组 1
    • 1[^\s]+consume1后跟任意数量的非空白字符,这可以防止先前匹配/替换1的 's 被拾取
    • |或者
    • [^1]消耗单个字符,前提是它不是1
    • |或者
    • [^\s]{2,}2 个或更多非空白字符
    • )关闭捕获组 1
    • \b消耗词边界
    • (?=\s|$)要求单词末尾有空格或字符串结尾

免责声明

如果输入字符串包含1并且1不是输入字符串的一部分,则此解决方案可能会失败。您可能需要考虑对分隔的空格进行拆分,然后对返回的数组应用逻辑。

于 2013-05-29T03:24:35.870 回答
0

描述

我建议将其作为函数运行。但首先您需要创建一个哈希表,其中键是您想要匹配的单词,值是 all 0。然后在函数中使用该正则表达式来查找匹配的单词,并在所有匹配项上将匹配项的哈希表值更新为1. 一旦完成,您可以将哈希表的值连接到一个字符串中

(?<=^|\s)(\b(?:happy|kittens|[:][)])\b)\W?(?=\s|$)

在此处输入图像描述

  • (?<=^|\s)向后看以确保单词有空格或字符串的开头
  • (开始捕获组 1
  • \b消耗词边界
  • (?:启动非捕获组
  • happy|kittens|[:][)]分别匹配快乐、小猫或:)
  • )关闭非捕获组
  • \b消耗词边界
  • )关闭捕获组 1
  • \W?捕获任何额外的非空白字符,这会吃一个标点符号,可能没用但允许额外检查
  • (?=\s|$)要求单词末尾有空格或字符串结尾

例子

我不知道 python,所以这里是我在 Powershell 中的做法,作为逻辑如何工作以显示正则表达式的示例。

$Words = @("happy", "kittens", "[:][)]")
$Tweet = "I really like kittens, they make me happy."

# build hashtable for each word
[hashtable]$WordHash = @{}
foreach ($Word in $Words) {
    $WordHash[$Word] = "0"
    } # next word

# find each known word and document find it
$Regex = "(?<=^|\s)(\b(?:" + $($Words -join "|") + ")\b)\W?(?=\s|$)"
Write-Host "regex:  $Regex"
    ([regex]$Regex).matches($Tweet) | foreach {
        $WordHash[$_.Groups[1].Value] = "1"
        } # next match

$WordHash[$Words] -join " "

yields
regex:  (?<=^|\s)(\b(?:happy|kittens|[:][)])\b)\W?(?=\s|$)
1 1 0
于 2013-05-29T04:14:46.953 回答