我有一个与现实世界中的机器学习应用有关的问题。这可能听起来很愚蠢,哈哈。
我一直在自学机器学习一段时间,大部分练习都是使用 csv 文件作为数据源(处理过的和原始的)。我想问一下除了导入 csv 文件来为机器学习提供通道/供应数据之外,还有其他方法吗?
示例:实时流式传输 Facebook/Twitter 实时提要的数据以供机器学习,而不是收集旧数据并将其存储到 CSV 文件中。
我有一个与现实世界中的机器学习应用有关的问题。这可能听起来很愚蠢,哈哈。
我一直在自学机器学习一段时间,大部分练习都是使用 csv 文件作为数据源(处理过的和原始的)。我想问一下除了导入 csv 文件来为机器学习提供通道/供应数据之外,还有其他方法吗?
示例:实时流式传输 Facebook/Twitter 实时提要的数据以供机器学习,而不是收集旧数据并将其存储到 CSV 文件中。
数据源可以是任何东西。通常,它以 CSV 或 JSON 文件的形式提供。但是在现实世界中,假设您有一个网站,例如 Twitter,正如您所提到的,您会将数据存储在诸如 SQL 数据库之类的理性数据库中,而对于某些数据,您会将它们放入-内存缓存。
您基本上可以利用这两种方法来检索和处理数据。这里的问题是当您有太多数据无法放入内存时,您实际上不能只查询所有内容并对其进行处理,在这种情况下,您将使用一些智能算法来处理数据块。
某些数据库(例如 SQL)的好处是它们为您提供了一组函数,您可以在 SQL 脚本中直接调用这些函数来有效地计算某些数据。例如,您可以获取整个表中某列的总和,或者使用SUM()
函数 SQL,这可以实现高效且轻松的数据操作