GitHub - sty945/news_spider: 以中国新闻网社会新闻板块为抓取对象,通过关键词来分析新闻热点事件

news_spider
│  readme.txt
│  
├─bin  程序文件
│  │  countDatabase.py     在数据抓取过程中统计数据库中数据数量
│  │  deal_network_failed.py    解决抓取过程中，网络掉线或者其他中断情况的断点续传功能
│  │  writefile.py   将数据库中所有的新闻数据写入到txt文本中
│  │  news_spider.py  爬虫主程序
│          
├─contents 文本资源
│  │  03_content.txt   2017年11月份的结果数据文本
│          
└─result      结果存放
        11month_view .html    数据可视化展示，基于jupyter notebook 书写保存后的html，建议firefox打开，chrome图表显示有问题
        11result.json        处理后的用json保存的数据提取出来关键词结果
        raw_result.json      处理前的用json保存的数据提取出来关键词结果
        news_spider_vision.ipynb  jupyter note格式的结果展示
        Locators_table_cheat_sheet.pdf  css selector资源
        stop_words*   停用词典

Name		Name	Last commit message	Last commit date
Latest commit History 54 Commits
.idea		.idea
bin		bin
contents		contents
result		result
ReadMe.md		ReadMe.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

基于新闻媒体的热点新闻数据可视化分析

代码解释

当前功能：

预期实现功能

国内常用热搜榜

相关参考文档

运行环境：

目录下文件功能解释

About

Uh oh!

Releases

Packages

Uh oh!

Languages

sty945/news_spider

Folders and files

Latest commit

History

Repository files navigation

基于新闻媒体的热点新闻数据可视化分析

代码解释

当前功能：

预期实现功能

国内常用热搜榜

相关参考文档

运行环境：

目录下文件功能解释

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages