推广 热搜: 行业  机械  设备    系统  教师  经纪  参数    蒸汽 

语料库和牛津辞典——牛津英语语料库(OEC)

   日期:2024-11-10     移动:http://tiush.xhstdz.com/mobile/quote/3180.html

点击标题处“牛津辞典”,关注我们,定期接收有关英语词源、历史和应用的文章。欢迎大家转载我们的文章。语言的研究基于真实证据。

语料库和牛津辞典——牛津英语语料库(OEC)

牛津辞典一直不断地监控并研究英语是如何进化的,而语料库分析就是达成此目的的核心,并为我们的语言研究提供真实的证据。

语料库(corpus)是什么?

语料库是书面或口头语言文本合集,并以电子形式展示。它提供证据展现真实场景下如何使用语言,帮助编辑们写就准确和有实际意义的词典条目。

 

The Oxford English Corpus 牛津英语语料库

牛津英语语料库(简称 OEC)主要收集基于互联网的材料,也包括一些来自纸质资源的材料(例如纸质学术期刊的资料,作为某些特定学科领域的补充性资源)。OEC 涵盖所有类型的英语,从文学小说、专业刊物到日常报纸和杂志均有涉及,甚至还涵盖博客、电子邮件和社交媒体中的用语。此外,由于英语是一种全球通用语言,OEC 收录来自世界各地的语言——不但包括英美的英语,还包括爱尔兰、澳大利亚、新西兰、加勒比海、加拿大、印度、新加坡和南非的英语。

 

当下,人们广泛使用各类网页,这使得我们能够创建一个在规模和种类上都史无前例的语料库——牛津英语语料库包含二十一世纪使用的约 25 亿个词汇,且在持续性收录着新的资源。

 

随着语料库的持续发展与新资源的不断添加,我们追踪语言随时间的变化成为了可能:哪些词汇越来越来越频繁地得以使用;哪些词汇的使用频率越来越低;从一个地区的使用发展到另一个地区;出现新的释义等。

 

很多学术研究往往非常需要语料库数据,牛津大学出版社可以帮助研究人员利用牛津英语语料库,获得所需数据。

 

英文原文文章请打开网页:https://en.oxforddictionaries.com/explore/oxford-english-corpus

 

牛津英语语料库:组成与结构

OEC 力图尽可能广泛地涵盖英语语言类型。为了确保各种来自不同学科领域、国家和地区、撰写类型的资源平衡,语料库有计划地得以发展。以现有方式构建的语料库就我们生活的所有领域中使用的英语提供了全景式图像。

 

OEC 分为 20 个主要学科领域,包括:

学科领域

在语料库中所占内容百分比

Agriculture

0.5%

Arts

7%

Business

4%

Blogs

9%

Computing

3%

Environment

0.4%

Fiction

3%

Games

0.2%

Humanities

2%

Law

2%

Life and Leisure

5%

Medicine

3%

Military

1%

News

29%

Paranormal

0.2%

Religion

2%

Science

5%

Society

5%

Sport

4%

Transport

0.4%

Unclassified

9%

一级学科领域被进一步细化成了一系列更为具体的分支。例如,运动就被分成了大约 40 个分支,包括棒球、篮球、帆船、足球等。这使得探索特定主题领域相关的语言成为了可能,也使得两种主题领域之间的比较成为了可能;还使得探究词汇在不同背景下的演变变成了现实。

 

全球各地的英语

牛津英语语料库主要收录英式英语与美式英语,这两者占了语料库中80%的内容。剩余的20%(超过 4 亿个词汇)为来自世界各地的英语变体:澳大利亚英语、南非英语、加拿大英语、加勒比海英语等。此外还包括了英语通常被作为第二语言来使用的地区,如印度、新加坡和香港等地区的材料。对于构建英语这一全球性语言的详细图景而言,语料库的地域范围是至关重要的。

 

资源类型和语域

资源类型或语域是指不同背景下使用的不同级别的语言。譬如,如果是足球方面的内容,会涉及到从正式性质的资源(官方规定)到非正式性质的资源(球迷的博客或来自在线留言板的评论)。我们对牛津英语语料库进行了精心组织,确保涵盖范围的全面性:以下列出了一些体裁类型,包括:

  • 学术论文

  • 技术手册

  • 期刊新闻报告、专栏、社论

  • 公司网站

  • 杂志文章

  • 小说和短篇故事

  • 爱好者杂志

  • 秘密网站与反主流文化网站

  • 个人网站

  • 博客留言板跟帖

 

对于构建英语使用的规范与标准而言,期刊、报纸与杂志是很有价值的。而另一方面,借助个人网站、博客和留言板,我们可以审视非标准化的语言。这些非标准化语言包括俚语、地方语和新造词与新造短语。这些资源不但为辞典编辑们提供了有关标准英语的指导规则,还是追踪书面语常见错误(譬如,拼写错误或释义混淆)的绝佳方式,之后可作为特殊用法注释之用。当然,现在非正式语境(譬如,博客或留言板)中出现了一些错误,极有可能最终会引起标准用法的变化。牛津英语语料库采用了各种类型的资源,使得我们非常精确地发现语言的演变以及标准的变化。

 

日期

牛津英语语料库中收录的材料均为 2000 年以后的。我们持续收集新资源,并每隔数月批量添加至语料库。随着语料库的持续发展,追踪语言的历时性变化成为了可能:哪些词汇越来越来越频繁地使用;哪些词汇的使用频率越来越低;从一个地区的使用发展到另一个地区;出现了新的释义。

英文原文文章请打开网页:https://en.oxforddictionaries.com/explore/corpus-composition-and-structure

 

Oxford New Words Corpus 牛津新词汇语料库

牛津新词汇语料库的资源收集工作始于 2012 年早期,现在已收录了大约 70 亿个词汇。它是对牛津英语语料库的补充与扩展,是对 2000-2006 年间英语词汇的谨慎平衡。

 

牛津新词汇语料库到底收录哪些信息呢?

在牛津辞典部,我们有兴趣了解任何有关词汇的内容,所以我们订阅了1万多个 RSS 推送,涉及时事、科学、体育、爱好、流行文化及其他数百个领域。我们每日两次访问这些订阅源,寻找一些之前没有发现到的链接,并收集来自页面的信息。我们收集的资源均为英语撰写资源,来自世界各地,包括了报纸、科学论文和个人博客在内的多种风格的资源。最为重要的一点是,我们能在页面发布以后一天左右的时间之内了解到这些信息。

 

牛津辞典如何利用牛津新词汇语料库分析语言呢?

我们每月都会对收集到的资源进行分析,删除掉重复的页面甚至重复的段落,这样就保留下来大约 1.5 亿多个词汇。我们还会对词类与语法结构进行识别,让我们能够了解当前英语词汇全面且最新的形势。

 

我们利用页面撰写时相关的详细数据,采用统计与编辑整合技术,来确定出现的新词汇和适用范围越来越广泛的词汇。我们着眼的不仅仅是词汇使用频率的变化,还包括词汇是如何在世界范围内被使用的;更重要的一点是,词汇的使用是否从专业论坛活动(例如,学术期刊、特定兴趣团体的网站)拓展至更广泛的领域。

 

牛津英语语料库和牛津新词汇语料库确保我们可以追踪并记录当下语言的每一个最新发展。通过利用特殊软件来分析这些语料,我们可以看到不同语境下的各个单词,发现生成的新词和新义,以及了解使用、拼写和世界英语等等的各类发展趋势。

 

小编还会在后续系列中说明牛津辞典如何利用语料库;语料库告诉我们哪些有关英语的信息;以及更多有关新词和新词义的文章。更多利用语料库分析词汇发展趋势的历史文章,请参考:

Oxforddictionaries.com网站最新收录词汇;

While 还是 Whilst?;

牛津语料库中十大最常见拼错单词排行榜;

英语世界年度热词——让我们通过词汇来了解过去一年间政治、生活或技术各方面热点事件。

 

点击文末“阅读原文”,登陆牛津辞典网站,查看更多有关牛津英语语料库的英文文章。

本文地址:http://tiush.xhstdz.com/quote/3180.html    物流园资讯网 http://tiush.xhstdz.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号