我是 python 新手,我正在寻找一种方法来用漂亮的汤提取现有的开放源代码书籍,这些书籍可以在 gutenberg-de 上找到,比如这本 我需要使用它们进行进一步分析和文本挖掘。
我尝试了在教程中找到的这段代码,它提取了元数据,但是它给了我一个我需要从中刮取文本的“页面”列表,而不是正文内容。
import requests
from bs4 import BeautifulSoup
# Make a request
page = requests.get(
"https://www.projekt-gutenberg.org/keller/heinrich/")
soup = BeautifulSoup(page.content, 'html.parser')
# Extract title of page
page_title = soup.title
# Extract body of page
page_body = soup.body
# Extract head of page
page_head = soup.head
# print the result
print(page_title, page_head)
我想我可以用它作为第二步来提取它吗?不过,我不确定如何。
理想情况下,我希望以表格方式存储它们并能够将它们保存为 csv,保留元数据作者、标题、年份和章节。有任何想法吗?