杂志文章主题描述符分配方法与实践
在文本分类研究中,可用文本类别的正例数量有限是一个显著的限制因素。本文将围绕文本语料、系统期望输出、分类方法、结果评估等方面展开详细阐述。
文本语料与系统输出
文本语料包含超过 2650 篇文章,这些文章于 1998 年发表在如《Knack》《Weekend Knack》《Trends》和《Cash!》等杂志上。文章为荷兰语,内容和结构具有高度异质性。
文章涵盖政治、经济、金融、生活方式、艺术、体育等多个领域的主题,且常交织不同主题领域。文章分属杂志的不同栏目,结构多样,多数遵循新闻报道模式,但也有电影标题列表加解释语句、餐厅简单地址等形式。还有少量卫星文章,是对大文章子主题的详细阐述。文章长度从一段到多页不等。
每篇文章都附有由出版商专业索引员分配的描述符,通常每篇文章有一个,有时两个,极少数有三个主题描述符,用于在路由任务中匹配文章和用户的档案。
使用的文本类别包括汽车(CAR)、投资(INVESTMENTS)、股票市场(STOCK MARKET)、烹饪(CULINARY)、电影(FILM)、计算机科学(COMPUTER SCIENCE)、国际(INTERNATIONAL)、文学(LITERATURE)、营销(MARKETING)、音乐(MUSIC)、政治(POLITICS)、体育(SPORTS)、旅游(TOURISM)和房地产(REAL ESTATE)。出版商定义了其他类别,但语料库中成员数量过少,未纳入实验。对每个类别抽取 10 篇文章进行手动分析,各文本类别的特点如下:
| 类别 | 特点 |
| — | — |
| 汽车(CAR) | 常描述新汽车和摩托车模型及其技
超级会员免费看
订阅专栏 解锁全文
24

被折叠的 条评论
为什么被折叠?



