3

我想从我从 twitter 检索到的推文中解析主题标签。现在,我没有在 api 中找到任何可用的东西。所以,我正在使用 php 自己解析它。我已经尝试了几件事。

<?php
$subject = "This is a simple #hashtag";
$pattern = "#\S*\w";
preg_match_all($pattern, $subject, $matches, PREG_OFFSET_CAPTURE);
print_r($matches);
?>

我也试过

$pattern = "/[#]"."[A-Za-z0-9-_]"."/g";

但随后它显示 /g 不被 php 识别。我已经尝试了很长时间,但我无法做到这一点。所以请帮忙。

PS:我对Regular Experssions知之甚少。

4

3 回答 3

1

您需要考虑主题标签可能出现的位置。有以下三种情况:

  • 在推文的开头,
  • 在空格之后,
  • 在一个词的中间 - 这不能算作一个标签。

所以这将正确匹配它们:

'/(^|\s)\#\w+/'

解释:

  • ^可用于OR语句
  • \s用于捕捉空格、制表符和换行符

这是完整的代码:

<?php
$subject = "#hashtag This is a simple #hashtag hello world #hastag2 last string not-a-hash-tag#hashtag3 and yet not -#hashtag";
$pattern = "/(?:^|\s)(\#\w+)/";
preg_match_all($pattern, $subject, $matches, PREG_OFFSET_CAPTURE);
print_r($matches);
?>
于 2013-03-22T19:42:34.287 回答
0

这对我有用:

$subject = "This is a simple #hashtag hello world #hastag2 last string #hashtag3";
$pattern = "/(#\w+)/";
preg_match_all($pattern, $subject, $matches, PREG_OFFSET_CAPTURE);
print_r($matches);
于 2013-03-22T19:33:24.453 回答
0

使用对象原型有一种更简单的方法,写了一篇文章详细说明了如何不仅使用 hastags,还使用推文中的用户名和 URL 来做到这一点。我正在从事的一个项目需要它,我正在从 Twitter API 获取推文。

https://benmarshall.me/parse-twitter-hashtags/

以下是相关代码:

// Auto-link URLs in a string
// Usage: mystring.parseURL()
String.prototype.parseURL = function() {
  return this.replace(/[A-Za-z]+:\/\/[A-Za-z0-9-_]+\.[A-Za-z0-9-_:%&~\?\/.=]+/g, function( url ) {
    return url.link( url );
  });
};

// Auto-link Twitter usernames in a string
// Usage: mystring.parseUsername()
String.prototype.parseUsername = function() {
  return this.replace(/[@]+[A-Za-z0-9-_]+/g, function( u ) {
    var username = u.replace("@","");

    return u.link( 'http://twitter.com/' + username );
  });
};

// Auto-link Twitter hashtags in a string
// Usage: mystring.parseHashtag()
String.prototype.parseHashtag = function() {
  return this.replace(/[#]+[A-Za-z0-9-_]+/g, function( t ) {
    var tag = t.replace("#","%23");

    return t.link( 'http://search.twitter.com/search?q=' + tag );
  });
};
于 2018-09-10T15:19:55.827 回答