最近研究生顺利毕业,值得庆幸。一年多的小论文折磨,加上半年多的毕业论文磨练,自己都熬过来了,真想给自己一个大大的赞。那些还依然处于研究生阶段,甚至博士生阶段的你们都还好吗?
总有人问我关于实证论文数据的问题,甚至有师兄直接将我毕业论文的数据拿过去又做了一篇论文,听说是想将论文发送到国外去。我在研究生阶段一直就是和数据打交道,作为985的研究生,对于毕业都有严格的要求,那就是要发一篇c核以上的级别的论文(最后我发表的是国内的A刊)。就是由于这个原因,最后我们整个班级还有几个人延迟毕业了,听起来是有些恐怖。那我今天就说说,如何做实证研究,以及如何获取到研究的数据?当然,我讨论的这些问题是基于毕业后你想工作,而不是继续做研究,否则这篇文章对你的帮助不会太大。
首先,我来讲讲如何获取数据?数据对于实证论文来说是非常重要的,很多同学都会从数据堂等网站上去直接下载,但是我想说,当你提出了一个模型,而要牵涉到特定的变量的时候,数据堂的数据一般都是无法满足你的需求的。你想想,他们在获取数据之前肯定也是无法知道你需要那些变量做研究的。除非,你来定制,定制,定制!
所谓的定制,就是你自己使用爬虫去爬取你需要的数据。现在的网站,只要你能在页面中看到的数据,几乎都是可以爬取的。因此,你可以随意构建你的模型,而不用担心数据的问题。很多人都觉得爬虫很难,其实爬虫是很简单的事情。我以前也没有牵涉到爬虫的书写,最后我写了一个java爬虫(需要javascript版本的,你可以查看nodejs爬虫),用于爬取太平洋电脑网排名前1000的手机评分,一共25800多条。这个数据量对于写论文来说已经足够了。我最后就是使用这个数据做了我的毕业论文以及小论文,并将小论文发表到《管理评论上》。其实,最重要的不是你如何写爬虫,而是你如何观察这个网站,比如你需要爬取该网站上那些数据用于研究,从而构建你的模型。对于我等不想继续做研究,而只是想按时毕业的同学,你可以首先对你想研究的领域做一个文献综述,此时你最少需要看国外文献(国内文献少看,因为国内的研究一般都是晚于国外的,国外的出来了以后,国内才会有类似的文章出现)300篇左右,将他们的模型画在笔记本上,然后找一个你想研究的网站,查看该网站那些变量是他们的研究中没有的(这个一定能找到,特别是技术特定,如我关注的就是“精华帖“这个特点),然后将这些没有的特点爬下来,最好做一个分类。我导师就讲过:“一切的管理问题都是分类问题“。如果你能将这些他们没有研究过的特点做一个分类,那么你最后写出来的肯定是一篇优秀的论文。
论文的数据获取不是最难的,而最难的在于如何通过观察网站特性,以及结合前人相关研究得出你的模型。我比较喜欢的一句话是:“以我们现在的努力程度,还完全没有到达拼智商的地步!“。所以说,只要你仔细观察,细心梳理,那么你肯定能找到你论文的创新点。比如我的研究题目是:“影响在线评论有用性的因素研究”,这个课题从1990年国外就开始研究了,但是在2017年我依然发表了同一题目的论文 。其原因在于:创新性。而我的主要创新就在于上文提到的对新特性的分类。
如何做实证研究?其实这个问题比较大,我上面也说了一点。很多人并不是不会做实证研究,而是无法获取到他们想要的数据,所以放弃了。比如我的导师,一直就在他的舒适圈里面,做他的结构方程模型。他的问题不在于不知道怎么做,而在于他们获取不到他们需要的数据,所以传统的研究方法依然是:结构方程模型+问卷。而至于如何获取数据,我上面已经说过了。下面我分享一下我自己的