问题标签 [boilerpipe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
745 浏览

java - 在 Android 中使用锅炉管

Boilerpipe 是一个基本上从网页中提取主要内容的库。对于新闻网站,由于格式因站点而异,因此提取内容尤其困难。所以我尝试集成锅炉管库 - https://code.google.com/p/boilerpipe/wiki/QuickStart

根据安装指南,我已将以下内容添加到我的 Java 类路径中:boilerpipe-VERSION.jar、nekohtml-1.9.13.jar 和 xerces-2.9.1.jar

我正在尝试使用锅炉管和涉及它的应用程序流程做什么

我有一个列表视图,其中有一个文章列表。我已经设置了一个onItemClickListener,这样当您单击listview上的任何项目时,它会获取特定于该文章的url并使用锅炉管道从该文章中提取文本并开始一个新的活动,它在textview中打印.

问题

一旦我单击列表中的一项,我的应用程序就会崩溃。 一个。我不确定我写的代码是否正确,因为我是初学者。请原谅我。如果不正确,我该如何解决?我感觉这可能是网址的问题。 湾。如果我没有正确安装样板,那么正确的做法是什么

列出活动:

文章活动:

article_view.xml

堆栈跟踪:

0 投票
1 回答
95 浏览

boilerpipe - 使用boilerpipe保留样板

我正在使用boilerpipe库来分析新闻文章。新闻文章包含很多样板,例如版权信息、相关文章的侧窗格等,Boilerpipe删除了所有这些信息。是否可以返回样板信息?我需要从版权声明等中分析和提取一些东西。

此外,对于每个文本块,它是否包含某种关于它是否是样板的信心?

谢谢。

0 投票
0 回答
98 浏览

java - 自定义输出表单boilerpipe - 变换

成两个换行符

我使用锅炉管从网站中提取文本。

我没有看到任何定制的可能性。我想<p>sentence</p>用两个换行符分隔元素。这可能吗 - 怎么做?

0 投票
1 回答
800 浏览

python-2.7 - python-boilerpipe 因多处理而挂起

我正在尝试boilerpipe使用 Python运行multiprocessing。这样做可以解析来自多个来源的 RSS 提要。问题是它在处理一些链接后挂在其中一个线程中。如果我删除池并在循环中运行它,整个流程就可以工作。

这是我的多处理代码:

这是我boilerpipe在内部调用的代码process_link_for_feeds()

我不知道它为什么挂起。proc_pool代码有问题吗?

0 投票
1 回答
591 浏览

java - 我尝试使用boilerpipe库在java中提取文章

它显示以下错误:HTTP 状态 500 - java.lang.reflect.InvocationTargetException

0 投票
2 回答
478 浏览

ruby - 文章提取 - Ruby

是否有任何选项可以使用 ruby​​ 仅从网页中提取内容。(避免链接和其他东西)

0 投票
1 回答
969 浏览

java - 在 Flask 应用程序中实现 Python-Boilerpipe 时 JVM 崩溃

我使用锅炉管道编写烧瓶应用程序来提取内容。最初我将锅炉管道提取物编写为脚本来提取网站内容,但是当我尝试与我的 api 集成时,执行锅炉管道提取器时 JVM 崩溃。这是我得到的错误https://github.com/misja/python-boilerpipe/issues/17 我也在 github 中提出了一个问题

这是我试图集成到使用 flask-restful,sqlachemy,psql 的 Flask api 中的上述脚本。我也更新了我的java,但这并没有解决问题。Java 版本

任何帮助,将不胜感激

谢谢

0 投票
2 回答
316 浏览

java - 将字符串转换为 json

我使用文章提取器从博客中提取数据,它以字符串格式返回文章。由于某些页面具有进入新闻内容的子链接,因此我也希望提取该数据。那么,如何访问子链接内的数据呢?我的代码是这样的:

0 投票
2 回答
706 浏览

character-encoding - Boilerpipe 提取非英语新闻文章

我正在尝试使用锅炉管从非英文文本中提取新闻文章。我已经看到了这一点,它对我不起作用。我做了以下更改 1) 修改了 HTMLfetcher.java。在方法 fetch 结束之前附加以下行

或/然后 2) 使用带有 Inuts 的 UTF-8 字符集更改类中的代码

还是不行 测试网址:http ://www.sandesh.com/article.aspx?newsid=2905443 文字:મુંબઈ, 30 જાન્યુઆરી

સલમાનખાનેનરેન્દ્રવખાણશુતેનીમુસીબતોમાંવધારોથઈછેછેછે。ફિલ્મફિલ્મહોનાપ્રમોશનઉત્તરાયણમાંઅમદાવાદઅમદાવાદહોવાથીઅનેતેસમયેનરેન્દ્રમોદીનાવખાણવખાણકર્યાકર્યાહોવાથીહોવાથીહોવાથીકોંગ્રેસફિલ્મફિલ્મફિલ્મફિલ્મફિલ્મફિલ્મફિલ્મહોહોહોહોહોહોહોનાજોવાનીજોવાનીકરવામાંકરવામાંકરવામાં છે。

请帮我。

0 投票
1 回答
1658 浏览

java - python pip包安装JAVA_HOME报错?

这个关于使用 java 和 python 的问题。我想使用 pip 安装锅炉管包。

我从最近两天开始工作,没有用。

出错

JAVA JDK 和 JRE 均已安装并正确设置环境变量。

用户变量

和系统变量

这些有什么问题。请帮帮我。

任何帮助将不胜感激。谢谢你