###Todo List From 20150130 To 20150420
- 2月7号waim demo abstract √
- 2月14号 waim demo final x
- 2月17号提交Trec最终版本论文 √
- 2月18号SigIR short paper due x
- 开题报告初稿 √
- 多文档摘要文献综述
- 简历解析文献综述
- 企业网络信誉评价模型综述
- 评论质量文献综述
- 英文情感词与评价对象词抽取
- 中文情感词与请假对象词抽取
- 专利申请书
- 专利流水号获取
- 著作权申请书 √
- 著作权提交
- 微信账号抓取 √
- 微信文章抓取 √
- webrisk1.0版本 √ 新闻 √ 评论 √ 简历关系数据 招聘数据 用电 信贷 人数 金融征信 产值 税收 工商数据
- 评论质量模型,实验,论文
- 校招数据索引 √
- 微信文章站
- DNS Monitor项目功能调整
- 软工著作
- 大论文初稿
- 新闻系统正常运行 √
- 大搜索系统正常运行
Important Dates
- 2月2 专利申请书联系张老师 x
- 2月7 WAIM Demo abstract √
- 2月10 Caise论文结果 x
- 2月14 waim demo deadline x
- 2月17 Trec论文 √
- 2月18 SigIr short paper x
- 3月14 WAIM论文结果 √
- 3月24 WAIM final paper √
- 3月24 APWeb abstract paper √
- 3月31 WebDB paper http://dbweb.enst.fr/events/webdb2015/ x
- 3月31 APWeb Research Paper √
- 4月7号 Biological Knowledge Discovery and Data Mining (BIOKDD2015),第六届,BIO相关 x
- 4月20 提交盲审 x
- 4月20 ATC2015 http://www.cybermatics.org/SWC2015/ATC/ATC2015.htm EI index 北京科技大学,信任网络 x
- 4月20 CBDCom2015 http://www.cybermatics.org/SWC2015/CFP/CBDCom2015_CFP_v3.0.pdf 北京 大数据相关 x
- 4月20号之前注册 waim 3800元 √
- 5月1号 CIKM abstract http://www.cikm-2015.org/key-dates.php √
- 5月8号 CIKM FULL PAPER √
- 5月31 EMNLP http://www.emnlp2015.org/ x
- 5月31 APWeb acceptence notifaction √
- 6月13 准备EXPERT system and applications 论文 √
- 6月14 apweb 最终版提交 √
- 7月1号 WebRisk各种bug搞定并部署在251机器 √
- 7月1号 完成欠的一篇翻译 √
- 7月1号 第三届CCF大数据学术会议http://www.ccf.org.cn/sites/ccf/xhdtnry.jsp?contentId=2860516742923 第二届的论文:http://pasa-bigdata.nju.edu.cn/ccf-bigdata2014/download.html x
- 7月2号 完成两台机器上spark的部署 x
- 7月3号 CIKM acceptance x
- 7月8号 修复webrisk各种bug和不顺眼的地方 √
- 7月8号 增加一个bitpt论坛的自动发帖机器人 x
- 7月9号 查明weixinPost爬虫的问题并部署 √
- 7月11号 完成spark ml的阅读并完成代码 √
- 7月15号 完成大论文摘要部分 √
- 7月20号 完成wifidog和authpuppy的安装和使用 x
- 7月20号 弄懂AC,AP以及大数量客户端接入的问题 √
- 8月7号 搞定实验室Spark运行环境 √
- 8月第2周 开始写大论文文本质量排序部分 √
- 8月17号 修改完简历解析系统长文,投稿出去 √
- 8月17号 提交or撤销ESA上的论文 √
- 8月17号 完成hdfs的配置 √
- 8月18号 开始处理amazon数据 x
- 8月第3周 开始写大论文简历抽取部分 √
- 8月22号 Spark meetup 微软 √
- 8月第4周 开始写大论文多文档摘要部分 x
- 8月20号 完成对amazon产品评论数据的处理 x
- 8月22号 Spark MeetUp in MS √
- 8月第4周 开始写大论文大数据处理部分 x
- 8月28号 全球容器技术大会 √
- 9月1号 完成质量排序论文初稿 x
- 9月第1周 完成质量排序论文部分的实验部分 x
- 9月5号 ESA论文被拒,修改准备改投KBS √
- 9月7号 续费171的宽带 x
- 9月7号 将简历自由文本数据库放置在171上 x
- 9月7号 将简历抽取大论文部分完成4.4和4.5 √
- 9月8号 开始整理评论质量排序论文初稿
- 9月10号 AAAI abstracts due x
- 9月12号 完成初稿,开始修改语法,分析实验 x
- 9月15号 AAAI full paper due x
- 9月16号 完成大论文评论质量排序部分
- 9月17号 准备ppt,回顾时序摘要部分,开始写大论文 √
- 9月18号 去广州开会APWEB,准备ppt √
- 9月22号 回京,完成时序摘要部分大论文 √
- 9月28号 完成第一章关于模型的大论文部分 x
- 10月第1周 完成大论初稿
- DUC2002数据集 正例样本和负例样本的对比图
- TAC2010数据集 正例样本和负例样本的对比图
- 中文简历1w份的文本长度图
- 评价模型的相关文档 √
- 多文档摘要的大论文部分 √
- 简历解析的大论文部分 √
- 绪论中的研究问题
- 论文的后续工作总结
- Amazon的数据预处理 √
- 评论质量分析的多种方法对比和整理
- 思考专利的点
- 重新整理简历抽取算法系统论文 √
- Docker化SpiderCluster √
- Docker化WebRisk项目 x
- 10月第2周 整体修改大论文 x
- 10月第3周 开始改论文 x
- 11月15号 争取送审大论文 x
- 10月第2周 整体修改大论文
- 10月第3周 开始磨老板改论文
- DUC2002数据集 正例样本和负例样本的对比图
- TAC2010数据集 正例样本和负例样本的对比图
- 中文简历1w份的文本长度图
- 评价模型的相关文档 √
- 多文档摘要的大论文部分 √
- 简历解析的大论文部分
- 绪论中的研究问题
- 论文的后续工作总结
- Amazon的数据预处理
- 评论质量分析的多种方法对比和整理
- 思考专利的点 √
- 重新整理简历抽取算法系统论文
- ================================新的开始=====================================
- 11月16号 搞定期刊的剩余问题 √
- 重整评论分析项目,把英文语料加入
- 解决tokudb的安装,把简历数据导入
- 完成大论文中简历部分的数据支持
- 把qian的中文处理部分加入大论文 √
- 把qian的英文处理部分也加入大论文
- 实现MMR
- 对比几个聚类算法
- 聚类内的排序解决
- WebRisk项目的安装和部署 √
- 2015.12.18 iswc2016 http://iswc2016.semanticweb.org/pages/important-dates.html x ==================================20151221重来=========================
- 梳理大论文中评论质量预测部分的文字
- 2015.12.21 评论英文Introduction部分 √
- 2015.12.22 评论英文Related work部分 √
- 2015.12.23 评论之方法的特征选择部分
- 2015.12.24 评论之方法的聚类部分
- 2015.12.25 评论之实验部分
- 2015.12.31 完成大论文评论部分
- 2016.01.08 WAIM 长文 内容为中文评论的处理,利用MI挑选特征,在分类的上面验证这些词的区分性,提出新的特征,在libsvm上进行实验验证,并对比其他几种方法,对比新特征的提升
- 2016.1.14 SigIR 短文 内容为英文评论的处理,创新点为结合聚类方法,在特征方面引入新特征,然后进行聚类,最后通过libsvm进行判断。
- 2016.1.27 IJCAI abstract
- 2016.1.30 WAIM paper deadline — blog opinion
- 2016.2.2 IJCAI paper deadline — english review
- 2016.2.11 SigIR short paper and demo deadline http://sigir.org/sigir2016/important-datesp/ 4页,双栏 — chinese review
- 2016.2.12 NAACL demo paper deadline http://naacl.org/naacl-hlt-2016/demos.html
- 2016.3.6 IJCAI demo paper deadline http://ijcai-16.org/index.php/welcome/view/call_for_demos
- 2016.3.18 NAACL demo paper acceptence
- 2016.3.20 WAIM paper acceptence notifaction
- 2016.3.31 SigIR short paper and demo acceptence
- 2016.4.8 IJCAI demo paper acceptence
###研究点
- 多文本摘要 √ 论文已中 √
- 简历抽取算法 √ 论文已中 √ 再扩展成一个长文投期刊 √ 投稿长文至期刊
-
评论质量评估
-
利用amazon数据、阅读别人论文、查2014和2013的WebDB论文找相关
数据量 英文的比较难懂 时间有点紧张
-
利用看准人工标注数据,抽取特征,拟合分类器,看评分标准 √
数据量小、实用价值高、中文易懂、分词等特征易于实现 分析标注数据的bias情况 √ 推荐标注数据评价方法:kappa alpha √ 实验LDA的抽取模型 周三 √ 方法已实现,但未接入 使用word2vec的词模型分析评论 周三 x 暂时不使用 实现虚拟最佳评论的那篇论文的方法 周四 实现一个有监督学习的评论方法 周四 增加NKcluster的例子说明 周五 √ 实现个其他的聚类方法 周五 聚类质量的判断 周六 实验出自己的排序方法 周六 基于weka实现tfidf部分特征组合
-
- 大数据环境下企业网络信誉评估架构研究 写个中文的,投个渣渣中文期刊
- bio文献摘要方法 有标注数据 坑太大,算了吧
###后续研究
- 职场简历中的六度空间计算 任何两个在职场的人,可以认识的概率
- 简历持续的翻新、唯一性识别
- 预测跳槽
- 预测公司走势、发展趋势
###毕设有关
论文相关
- 1129,1130 (周六周日) 搞定软件工程书稿的校正
- 1201,1202 (周一周二)搞定论文的第一遍校正,周三跟老板讨论
- 1203,1204 (周三周四)按照老板的继续改,周四晚上再讨论一次
- 1205,1206 (周五周六)修改之后的论文,按照期刊要求修改格式,投稿。(周六)
- 1207,1208,1209(周日,周一,周二)开始按照摘要论文的修改方式修改抽取的论文
- 1210,1211 (周三周四)把修改之后的论文给老板审阅并按照要求修改
####在家计划
- 0106 修改第一遍论文
- 0107,0108 修改论文第二遍并找老板讨论
- 0109 投稿论文WAIM
- 0110,0111 搞定开题报告、文献综述
- 0112,0113 搞定专利
####全文检索系统
- 把系统跑起来
####新闻系统
把新闻系统串起来,增加个搜索功能。
- 先把系统运行起来
- 定时任务搞起来
- 缺的搜索功能补上
- 定时索引搞起来
####企业网络信誉
公司网络信誉系统需要串起来,把基本功能完成 √
- 先把功能跑起来 √
- 只针对上市公司的数据跑起来 √
####多文档摘要系统
结合到engine-client上,做到提供api服务
####简历抽取demo 继续提高准确率,准备个demo paper
####评论质量 抽取成API,持续提供服务
###工作相关
####简历抽取
- 1129 (周六)搞定逻辑回归和libsvm的使用,测试对根据名字判断性别这个case的适用度
- 1201,1202 (周一周二)针对工作经验部分,开始整理相应的特征抽取,并实验分类方法的准确性(第一周)
- 1205,1206 (周五周六)针对教育信息部分,调整相应的特征抽取,并实验分类方法(第一周)
- 1208,1209 (周一周二)针对基本信息部分,调整相应的特征抽取,并实验分类方法(第二周)
- 1212,1213 (周五周六)调整原有抽取方法的代码部分,重新整理代码调整到基于分类方法上(第二周)
- 1215,1216 (周一周二)测试新代码的准确性,增加对比页面(第三周)
- 1219,1220 (周五周六)逐个线下文本数据跑数据,调整对应的参数(第三周)
- 1222,1223 (周一周二)优化代码
- 1226,1227 (周五周六)统计各类简历数据,形成基本的图表
- 1229,1230 (周一周二)增加基本的推荐功能,类似pinbot
###锻炼身体 身体都抗议了,还不锻炼身体就是等死
- 晚上10:30准时睡觉
- 周一到周五,6:00起床,跑步半小时
- 周六周日早晨起床打球
- 晚上回家Rock body