问题标签 [stem]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
215 浏览

python - 通过 stem 库与 tor 的连接数 - 控制器创建 2 个连接,但关闭控制器仅删除一个连接

我正在使用 stem 库,并且正在为 Stem Controller 类编写一个薄包装器。

我对实例化控制器时创建的连接数以及关闭控制器时删除的连接数有一些疑问。

这是我到目前为止的代码:

TL; 代码的 DR:计算端口 9051 上的连接数,创建一个控制器,再次计算端口 9051 上的连接数,并断言数量增加一。除了断言连接数减少了一个之外,删除也是一样的。

我用 python3 stem_code.py -u 运行我的代码并得到,例如:

我认为最相关的部分是:

我的第一个问题是:为什么在这里创建两个连接?

我已经提出了一个理论为什么会这样,但我不确定。

很好奇这两个连接是什么,我在实例化控制器后这样做了:

结果是这样的:

因此,我让 tor 客户端在端口 9051(第一行)和两个连接上侦听,一个从 tor 到 stem(9051 到 40606,第二行),一个从 tor 到 tor(40606 到 9051,第三行)。

这种双重连接,tor to stem 和 stem to to 是创建两个连接的原因吗?

在此之后,我决定接受 2 个连接按原样创建的事实。因此,我将单元测试从 +1 更改为 +2 以通过该特定断言。测试继续进行,但未能通过初始化前连接数等于删除后连接数的断言。

使用与连接情况相同的过程,我这样做netstat -na了:

Tor 到 Stem 的连接似乎仍然存在。

我是否正确地认为,当我这样做时, controller.close() 我只关闭了茎到 tor 的连接,但 tor 到茎的连接仍然处于活动状态(至少在一段时间内,TIME_WAIT 状态)?

现在,假设我到目前为止是正确的:

  1. 有什么方法可以强制 tor 关闭它的连接端?

  2. 是否有任何理由试图强制 tor 关闭它的连接?(我的推理是这样的。我知道到 tor 客户端的最大连接数为 256 个。我希望尽可能多地免费)。否则,处于 TIME_WAIT 状态的连接算作实际连接?例如,如果我有 255 个 ESTABLISHED 连接和一个 TIME_WAIT,我还能与 tor 建立另一个连接吗?

  3. 你认为这是测试我的包装类的正确方法,还是有更好的方法来确保控制器正确打开和关闭?

谢谢!

0 投票
1 回答
918 浏览

r - 如何从 txt 文件在 R 中创建茎叶图?

我是 R 的新手。我需要帮助在 R 中创建一个简单的茎叶图。这是我创建茎叶图的数据。它保存在一个文本文件中。

这就是我希望我的茎看起来像叶子的方式。

现在我将它加载到“R”中并读取它的数据,但是当我运行查看表格时......这就是它的样子。

在此处输入图像描述

它没有显示它应该如何显示。因此,为了制作茎叶图,编写了以下代码。

上面的代码给了我错误Error in stem(data2$Leaf) : 'x' must be numeric

所以有人可以帮我解决这个问题并显示正确的茎叶图。

谢谢你。

数据:

0 投票
1 回答
120 浏览

r - 大数据集上的 stri_replace_all_fixed 慢 - 有替代方案吗?

我正在尝试通过使用stri_replace_all_fixed函数来阻止 R 中的约 4000 个文档。但是,它非常慢,因为我的词干词典包含大约。30 万字。我这样做是因为文档是丹麦语的,因此 Porter Stemmer Algortihm 没有用(它太激进了)。

我已经发布了下面的代码。有谁知道这样做的替代方法?

逻辑:查看每个文档中的每个单词 -> 如果 word = voc-table 中的单词,则替换为 tran-word。

“voc”数据框的结构:

0 投票
1 回答
501 浏览

python - 如何在字典中搜索 nltk 词干?

我在检查字典中是否存在词干词时遇到问题。这是我正在做的一些情绪分析工作。我得到的只是这里的错误:

这是我通过 NLTK 查找词干的方法的代码:

这是根据字典检查该单词的代码:

现在我只是得到分数。有没有办法可以将该词干作为字符串传递,以查看字典中的分数?如果我做错了什么或可以做得更好,请告诉我!谢谢!

0 投票
1 回答
596 浏览

php - 如何在php中启用词干语言?

我已经安装了搬运工词干分析器:

我已经添加了

php.ini 文件末尾的字符串和...

但是 phpinfo 告诉我:

...并且函数 stem_english 不存在。

如何启用语言?

PS:我必须插入此文本以避免“看起来主要是代码”错误。版主可以删除它。

0 投票
1 回答
60 浏览

python - 为什么在使用 python nltk 词形化后“闪亮”变成“闪亮”?

有几个词使用“-ing”作为现在连续进行,如“闪亮”。但是当我尝试使用 nltk 对“闪亮”进行词形还原时,它变成了“闪亮”。代码是这样的:

即使不使用'v',它仍然是相同的“闪亮”并且不会改变。我期待输出“闪耀”。有人可以帮忙吗?谢谢

0 投票
0 回答
306 浏览

python-3.x - 有没有办法通过stem库打印出TOR IP地址

有没有办法打印出 TOR 生成的 IP 地址,以确保它没有使用我的 IP 地址?

这是我的代码:

如果有办法打印出 TOR 生成的 IP 地址,我将如何将其写入?

0 投票
1 回答
2312 浏览

r - 如何在 R 中创建茎图?

在此处输入图像描述我想在 R 中创建一个茎图。我有一个 matlab 代码,但不知道如何在 R 中编写相同的代码。matlab 代码如下

0 投票
3 回答
2860 浏览

python - “接收控制消息时出错(SocketClosed):空的套接字内容”在 Tor 的茎控制器中

我正在开发一个使用 Tor 的刮板,它的简化版本在这个示例项目中:https ://github.com/khpeek/scraper-compose 。该项目具有以下(简化的)结构:

蜘蛛,定义quotes_spider.py,是一个基于Scrapy 教程的非常简单的蜘蛛:

settings.py,我已经激活了一个带有线条的Scrapy 扩展

extensions.py在哪里

并且tor_controller.py

docker-compose build如果我开始使用后跟进行爬网docker-compose up,则扩展程序基本上可以工作:根据日志,它成功更改了 IP 地址并继续抓取。

然而,令我恼火的是,在引擎暂停期间,我会看到错误消息,例如

其次是

是什么导致了这些错误?既然他们有INFO水平,或许我可以无视他们?(我在https://gitweb.torproject.org/stem.git/上看过一些 Stem 的源代码,但到目前为止还无法掌握正在发生的事情)。

0 投票
1 回答
1172 浏览

python - Stem 控制器的新身份不会改变 tor IP

以下问题看起来很像 SO 上已经存在的许多相关问题(我已经阅读了它们,但我的问题略有不同并且仍然存在)。

我使用 stem 库在 Python 3.6.1 中编写了以下代码(在 macOS Sierra 和 Ubuntu 上都经过测试)。它所做的只是创建一个新的 tor 进程(配置为使用意大利 ip),打开一个到它的控制器连接并在尝试获取新的 tor 身份并等待 30 秒后检查 IP。

我的代码只不过是干库文档的略微修改版本,因此可以正常工作。

所有代码似乎都表现良好,我没有收到任何错误/异常,但每次我得到相同的 IP(有时是第二个 IP,但在两者之间切换)

这是代码(main.py):

这是程序输出:

你知道为什么我每次都得到相同的 1-2 个 IP/IP,以及如何解决它吗?我不确定这里出了什么问题。也许意大利只有两个出口节点(使用意大利 IP)?

谢谢