研究生实证论文数据经验分享

最近研究生顺利毕业，值得庆幸。一年多的小论文折磨，加上半年多的毕业论文磨练，自己都熬过来了，真想给自己一个大大的赞。那些还依然处于研究生阶段，甚至博士生阶段的你们都还好吗？

总有人问我关于实证论文数据的问题，甚至有师兄直接将我毕业论文的数据拿过去又做了一篇论文，听说是想将论文发送到国外去。我在研究生阶段一直就是和数据打交道，作为985的研究生，对于毕业都有严格的要求，那就是要发一篇c核以上的级别的论文（最后我发表的是国内的A刊）。就是由于这个原因，最后我们整个班级还有几个人延迟毕业了，听起来是有些恐怖。那我今天就说说，如何做实证研究，以及如何获取到研究的数据?当然，我讨论的这些问题是基于毕业后你想工作，而不是继续做研究，否则这篇文章对你的帮助不会太大。

首先，我来讲讲如何获取数据？数据对于实证论文来说是非常重要的，很多同学都会从数据堂等网站上去直接下载，但是我想说，当你提出了一个模型，而要牵涉到特定的变量的时候，数据堂的数据一般都是无法满足你的需求的。你想想，他们在获取数据之前肯定也是无法知道你需要那些变量做研究的。除非，你来定制，定制，定制！

所谓的定制，就是你自己使用爬虫去爬取你需要的数据。现在的网站，只要你能在页面中看到的数据，几乎都是可以爬取的。因此，你可以随意构建你的模型，而不用担心数据的问题。很多人都觉得爬虫很难，其实爬虫是很简单的事情。我以前也没有牵涉到爬虫的书写，最后我写了一个java爬虫（需要javascript版本的，你可以查看nodejs爬虫），用于爬取太平洋电脑网排名前1000的手机评分，一共25800多条。这个数据量对于写论文来说已经足够了。我最后就是使用这个数据做了我的毕业论文以及小论文，并将小论文发表到《管理评论上》。其实，最重要的不是你如何写爬虫，而是你如何观察这个网站，比如你需要爬取该网站上那些数据用于研究，从而构建你的模型。对于我等不想继续做研究，而只是想按时毕业的同学，你可以首先对你想研究的领域做一个文献综述，此时你最少需要看国外文献（国内文献少看，因为国内的研究一般都是晚于国外的，国外的出来了以后，国内才会有类似的文章出现）300篇左右，将他们的模型画在笔记本上，然后找一个你想研究的网站，查看该网站那些变量是他们的研究中没有的（这个一定能找到，特别是技术特定，如我关注的就是“精华帖“这个特点），然后将这些没有的特点爬下来，最好做一个分类。我导师就讲过:“一切的管理问题都是分类问题“。如果你能将这些他们没有研究过的特点做一个分类，那么你最后写出来的肯定是一篇优秀的论文。

论文的数据获取不是最难的，而最难的在于如何通过观察网站特性，以及结合前人相关研究得出你的模型。我比较喜欢的一句话是:“以我们现在的努力程度，还完全没有到达拼智商的地步！“。所以说，只要你仔细观察，细心梳理，那么你肯定能找到你论文的创新点。比如我的研究题目是：“影响在线评论有用性的因素研究”，这个课题从1990年国外就开始研究了，但是在2017年我依然发表了同一题目的论文。其原因在于：创新性。而我的主要创新就在于上文提到的对新特性的分类。

如何做实证研究？其实这个问题比较大，我上面也说了一点。很多人并不是不会做实证研究，而是无法获取到他们想要的数据，所以放弃了。比如我的导师，一直就在他的舒适圈里面，做他的结构方程模型。他的问题不在于不知道怎么做，而在于他们获取不到他们需要的数据，所以传统的研究方法依然是：结构方程模型＋问卷。而至于如何获取数据，我上面已经说过了。下面我分享一下我自己的

云奕文章网

研究生实证论文数据经验分享

相关推荐：