1.数据采集系统和分布式爬虫系统的架构设计和开发
2.对接外部数据服务商提供的数据及资讯服务,实现数据的'有效沉淀,建立数据服务评估机制
3.负责大规模文本、图像、视频数据的抓取、抽取,去重、分类,垃圾过滤,质量识别等工作
4.研究各种目标网站的形态,互联网特征挖掘,发现它们的特点和规律
因篇幅问题不能全部显示,请点此查看更多更全内容