jingxia's profile恐龙发源地PhotosBlogLists Tools Help

Blog


    January 09

    Wenzhou Spoken Corpus (V1.0) 我很丑可是我很functional

     
    星期五meeting的时候老板乐巅巅地跟自己说Corpus已经转移到对外服务器上了,总算是对外public了,自己听了也很高兴,不过还是浇了他一点冷水 "My friend said it's ugly'。果然老板马上露出一副很受伤的表情,大叫"If we could make it better!" 几秒钟后又突然冒出一句,"but it's functional" 喃喃几句后又开始兴奋了,"yeah, functional, er? er?"  都快忍不住对他翻白眼了 ><||||
     
    这个语料库从2005年1月正式动工直到2006年1月才release,中间也花了自己大量心血,20多万个字还有那些标点,符号都是自己一个一个敲进去的。听温州话敲汉语拼音一度扭曲了自己的语言系统,尤其八月的时候,说话能力明显下降。用Tony McNerry的话来讲是耗了自己大量的美好青春。不过很不喜欢这人,当时还有人建议自己申他的PhD,当场表示鄙视,那人长得没我老板帅,说话没我老板可爱,笑起来不但没我老板好看,还一副阴险样-_- 扯远了……不过这个足以说明除了睡觉,小说,游戏之外自己也的确干了些事,hiahiahia,居然有人说我无趣,不无趣能有那么多时间搞这个吗?!哼哼
     
    现在是版本1.0,很小,才20多万字,不过麻雀虽小五脏具全,综合了The British National Corpus 和 The Lancaster Corpus of Mandarin Chinese的特点,有concordance display,collocates list,也能追溯每个说话者的背景信息。这里要非常感谢月月,微平,培培她们,没有她们参与录音,phonecall和conversation这两个部分就不会完善,还有OSU跟UCLA老师的鼓励和赞扬……如果PhD还在UA念,以后应该还会有V2,V3,包括一些同步翻译语料库,比如英语的,普通话的翻译,加些统计学的东西,比如T-score, Z-score,这些都还是“如果”……
     
    很多人对corpus这个词不了解,就连自己系的同学也常常问我What is a corpus? 对这个问题自己一向没有给intelligible的答案,只说a database consists of transcribed real conversation or texts.一直有打算什么时候写一些介绍语言学的东西,用通俗的话来解释语言学里头那些有趣的没趣的名词啊,现象啊,让外行人念起来就跟吃饭一样简单明了,可惜也一直能力有限。这个……大概要到几十年后吧,如果那个时候自己还活着而且还在搞语言学的话……