问题标签 [array-column]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
12 浏览

python - 使用 PySpark 将词汇元素与 LDA 模型中的索引匹配

我想从.describeTopics()输出中获取 Spark LDA 模型的术语索引,并将它们与计数矢量化器词汇表中的适当术语相匹配。这里是摩擦点:

我想要的输出将是上面带有数组列的 Dataframe terms,其中包含基于termIndices.

这是设置问题的代码:

这是我尝试过的:

运行此代码时,我实际上并没有收到错误,但它没有显示任何内容。也许 UDF 不是正确的方法。我如何将索引termIndices与模型词汇表匹配terms并使其成为一个数组列?