欢迎对数据可视化、数据挖掘感兴趣的同学一起完成这个项目。 welcome to fork
关于该项目的设计思路、一些代码的解释以及学习如何利用NLP技术做简单数据可视化分析,可以微信扫描下面二维码,直达详细教程:
以中国新闻网社会新闻板块为抓取对象,通过关键词来分析新闻热点事件: 中国新闻网链接
当前代码中设置的是抓取2017年11月份所有数据新闻数据,后期进行数据可视化分析,用户也可以自己在homework1.py设置要抓取的时间段
建立一整套从新闻信息挖掘到分析以及可视化展现的完整体系, 使用户能够很好的关注整个当前的新闻热点以及这些热点的起始、 经过、 发展和消逝的整个过程。
微信官方曾经关于新闻热点可视化的一篇推送,可做参考:
微信小秘密: 2016 年那些 10w+ 文章是怎么刷爆朋友圈的?
pyLDA系列 考量时间因素的动态主题模型(Dynamic Topic Models)
LDA(Latent Dirichlet Allocation)主题模型
系统:windows
python版本:python 3.6.3
数据库:mongoDB 3.4.9
分词系统:中科院ictclas分词系统 地址:https://github.com/sty945/NLPIR
分词系统文件转json地址: http://tools.jb51.net/code/excel_col2json
news_spider
│  readme.txt
│  
├─bin  程序文件
│  │  countDatabase.py     在数据抓取过程中统计数据库中数据数量
│  │  deal_network_failed.py    解决抓取过程中,网络掉线或者其他中断情况的断点续传功能
│  │  writefile.py   将数据库中所有的新闻数据写入到txt文本中
│  │  news_spider.py  爬虫主程序
│          
├─contents 文本资源
│  │  03_content.txt   2017年11月份的结果数据文本
│          
└─result      结果存放
        11month_view .html    数据可视化展示,基于jupyter notebook 书写保存后的html,建议firefox打开,chrome图表显示有问题
        11result.json        处理后的用json保存的数据提取出来关键词结果
        raw_result.json      处理前的用json保存的数据提取出来关键词结果
        news_spider_vision.ipynb  jupyter note格式的结果展示
        Locators_table_cheat_sheet.pdf  css selector资源
        stop_words*   停用词典
