简介:本文用文本挖掘的方法分析不同层次的大学生英语写作在词汇和主题构思方面的特征。分析的数据来至中国词网公司2016年举行的全国大学生百万同题写作项目收集的部分(2000篇)作文文本。不同层次学生分别来自四川和重庆的三所985高校和8所普通二本院校。研究问题包括:两类学生整体分数差异、词汇量、词频分布、词汇丰富度特征、主题词汇关联以及主题聚类特征。结果表明:985高校学生作文分数明显高于普通二本院校学生;词汇量、词汇丰富度方面,前者也明显高于后者,而词频分布和使用频度高的实义词汇的分布特征相似;与主题词共现程度高的组词,两者相似度高;985高校学生文本提取出三个主题,而普通二本院校学生文本呈现五个主题。
简介:从“鹅毛笔”和“阿尔法狗”看大数据语境中的新闻写作,当下以及未来的智能化写作给新闻写作带来的不仅是技术上的变革,而且是诸多观念上和认识上的变化,但无论有多少变化,大数据语境中的新闻写作仍需不忘初衷,坚守以人为本的理念。一方面,没有“人”的进一步参与,数据新闻只能鹦鹉学舌;另一方面,智能化机器人写作促使人类记者超越传统新闻写作,追求三维立体化新闻写作。对于新闻记者而言,当下的竞争力和优势不仅是如何借助大数据获取数据,更在于如何分析数据,以怎样的理念或价值观解读数据。就新闻写作而言,大数据对新闻的价值不仅在于“大”,更重要的是人类要学习如何通过人机合作,让数据为我所用。大数据语境中的新闻写作要透过大数据观察和关注超越个体的“人”——人类,而不是停留在数据本身。