杨楠 中国人民大学信息学院,北京,100872丁晖 中国人民大学信息学院,北京,100872刘悦 中国人民大学信息学院,北京,100872
摘 要:针对采用紧密二分图来抽取社区核的(α,β)密度方法和γ-dense密度方法进行了分析,指出了存在的问题. 提出紧密二分图块的概念和采用2步骤构造二分图的方法,减少不必要节点和边的扩展. 提出最大紧密二分图块的概念和抽取算法. 新算法在4个Web爬虫爬取的数据集下进行了测试并抽取了大量的社区核,人工验证这些社区核,80%均为有效的社区. 同时针对Dourisboure等人的方法进行了不同规模数据集的测试,证明了里面包含大量的割点. 实验结果的分析表明,新算法是可行的和有效的.
关键词:Web社区;紧密二分图;链接分析
中图分类号:TP393
馆藏号:H064246
所有评论仅代表网友意见