如何利用HTML页面中meta元素?
| 作者:佚名 日期:2006-04-07 11:28 点击: | |
1:假如说你的站点页面中有这么一句:
<META NAME="robots" CONTENT="index,follow">
你利用Nutch抓取并分析时,如何得到这个meta数值并处理呢?
2:你可以从HtmlParseFilter扩展出一个RobotsParserFilter,用下面的代码得到meta值:
Properties generalMetaTags = metaTags.getGeneralTags();
String robots = generalMetaTags.getProperty("robots");
3:增加这个值到metadata中:
parse.getData().getMetadata().put("robots", robots);
4: robots属性还可以再次从 metadata获取:
String robots2 = parse.getData().get("robots");
| 相关文章 |
|
| 其他文章 |
|
|
| |
| · 您将承担一切因您的行为、言论而直接或间接导致的民事或刑事法律责任 · 留言板管理人员有权保留或删除其管辖留言中的任意内容 · 本站提醒:不要进行人身攻击。谢谢配合。 |




