我试图找出从页面源中“抓取”某些数据的最有效方法。一个例子是:
<TH CLASS="ddtitle" scope="colgroup" ><A HREF="/PROD/bwckschd.p_disp_detail_sched?term_in=201370&crn_in=71492">Printing Industry/Typogaphy - 71492 - INT 101 - 0</A></TH>
我需要文本“印刷业/排版 - 71492 - INT 101 - 0”
我有哪些选择?(复制/粘贴不会这样做,因为页面容纳了 40 多个这些项目。我还打算将这种技术用于其他信息。)