二三、科研(2 / 2)
第二学年,山丰对自己的研究工作有了很大的困惑,觉得他们在进行一项不可能实现的工作,让计算机能够顺利的处理自然语言是不可能的,有一阵子很少去实验室,呆在宿舍,或者去图书馆,记得很清楚,当时完整地看了两部电视剧《过把瘾》和《编辑部的故事》,这都是王朔的作品,情节平常,完全靠语言取胜,对话俏皮和出奇,对接顺滑,仿佛大型情景相声,透着北京式的洞察世事的智慧,带着玩世不恭和满不在乎。更多的时间是把柏杨的《资治通鉴》72册几乎通看了一遍。《资治通鉴》山丰接触多次了,原版文言文读起来有些困难,其中的大量古代地名、术语、官职等等不明就里,白话翻译版大都gg巴巴,既缺少原版文言文的文字美,又没有将现代人需要的背景知识补充进去,而柏杨的大不相同,文中有大量顺畅cHa入的解读,b如当时的地名现在所处何地,当时的官职大概与现在何官相当,还有人物之间的暗藏关系等等,更妙的是柏杨的历史功底和文字功夫远胜一般译者,历史脉络梳理更加清晰,文字晓畅严谨,不失趣味,不拘泥原文字眼,重在意义和文采的翻译,没有大陆学者在长期官压下形成的僵化、呆板、味同嚼蜡。柏杨的史观也很合山丰,他注入了自己的想法,甚至感情,山丰也常常有共鸣。
那段时间是山丰在北大最迷茫的时期,山丰怀疑自己该不该上研究生,或者该不该选择这个方向,山丰其实一直很喜欢文字,但是喜欢和教计算机理解是完全不同的,山丰觉得这个领域的研究是没有希望的。但山丰又深切地怀疑自己在企业的实际工作能力,山丰不太能够安心坐下来脚踏实地地写一些简单但繁琐枯燥的代码,山丰的内心还是希望完成有挑战的、带有开创X质的任务。那时的山丰处於了典型的「高不成、低不就」的两难困境中。
山丰就这样一直困惑着进入了研究生三年级,这时候所里和中科院合作开展了一个机器翻译项目,主导者是中科院计算所的杜鑫。杜鑫当时硕士毕业不久,也在不断尝试,希望打开自己的研究局面。杜鑫能力很强,特别是程式设计的能力,几乎编写了系统需要的所有代码,北大主要提供各种词典和规则,特别是把长期研究的《现代汉语信息词典》实用化,山丰主要参与了规则这部分工作。他们在吴湛的组织下,很快给出了一套规则。具T方法是,先找来一批句子,然後分头完成每个句子的句法分析,并标注出来,然後用程式从中提取出句法规则。这个方法与山丰最初的想法完全不同,山丰本来以为会组织大家整理《现代汉语语法》这类书籍,然後想办法把那些规则写成计算机可以接受的严格的形式,但是难度很大,山丰一直在想,看看吴湛或其他人有没有什麽好的办法,没有想到吴湛用了这麽巧妙的方法解决了这个问题。他们把第一版规则提供给杜鑫,很快杜鑫反馈了意见,规则很粗糙,需要补充和JiNg细地调整。这个任务後来主要由钟红钧和山丰来做,钟红钧b山丰低一级,是中文系的研究生,但是他是跨学科培养的研究生,他也学了很多计算机方面的知识,显然他是最适合这个工作的人选,山丰後来主要是辅助他。那时,他们天天一起去中科院计算所的实验室,和杜鑫随时交流,不断改进系统,他们对山丰帮助很大,结下了深厚的友谊。
这项工作做着做着,山丰又开始有些喜欢计算语言学的研究了,其实不应该想得太远太大,不要总去想那些终极的问题,从这种小的事情做起,尽可能地多解决一些问题,才是山丰当时应该有的研究态度和方法。可是这个时候,已经错过报考博士的报名了,另外,山丰也确实想到社会上去看看。山丰那时定下了计划,先好好完成硕士论文,然後出去工作,再根据硕士论文和工作情况来决定是不是重回学校读博士。三年级的第二学期开始不久,山丰就告别杜鑫的团队,回到北大完成自己的硕士论文,记得特别清楚,最後那天,杜鑫还专门请山丰吃了一顿饭,钟红钧也在一起,饭桌上杜鑫不仅给了一些研究的真知灼见,还给了山丰一个至今采用的选餐馆秘诀,「当一条街上餐馆很多时,如果不了解情况,就选新开张的店,新店不仅仅环境好,而且为了把名声打出去,往往做菜很认真。」山丰很感谢他们一直给予的鼓励和帮助。
山丰的硕士论文题目是《汉语句法规则的获得和分析算法》,山丰由於参加了汉语句法规则的编写,且山丰一直认为句法分析是自然语言处理中目前切实可做的最关键任务,山丰因此选择了这个题目,这个工作与山丰以前完成的编译原理大作业有类似的地方,但是复杂很多,山丰一度怀疑自己能不能将程式调试成功,後来山丰不去想那麽多,只想尽量接近成功一些,临近论文最终提交的日期,山丰竟然修正了其中的所有bug,程序实现了自己预定的所有目标,算是顺利完成了。这是山丰第一次完成的大型程式,给了山丰很大的信心,它让山丰相信只要不放弃,再难的程式都是可以完成的,虽然时间来得晚了一些。如果山丰早有这样的信心,山丰就会努力申请在所里直接攻读博士学位。
↑返回顶部↑