您好,欢迎来到宝阳悦读网
VIP购买
分类页面广告
《网络爬虫全解析:技术、原理与实践》/罗刚
作者: 罗刚
格式:
mobi/epub/pdf/awz3
浏览量:
39次
扫描关注公众号
扫码关注公众号

温馨提示:书籍来自网络收集,版权归原作者所有,仅做学习试读,下载后请24小时内删除,侵权删(联系:1401211620@qq.com)

所属分类:
点击下载
收藏该图书
图书中部
图书详情
内容简介:
本书介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息,以及针对抓取到的文本进行有效信息的提取。为了扩展抓取能力,本书介绍了实现分布式网络爬虫的关键技术。__eol__另外,本书介绍了从图像和语音等多媒体格式文件中提取文本信息,以及如何使用大数据技术存储抓取到的信息。最后,以实战为例,介绍了如何抓取微信和微博,以及在电商、医药、金融等领域的案例应用。其中,电商领域的应用介绍了使用网络爬虫抓取商品信息入库到网上商店的数据库表。医药领域的案例介绍了抓取PubMed医药论文库。金融领域的案例介绍了抓取股票信息,以及从年报PDF文档中提取表格等。
详情数据包