春节是个不可逃避的“相亲季节”,数据科学家给你支招,建个模型,帮你找到男神、女神呢?
也许你会说,圈子小、太宅、不善沟通、梦中那个他\她和现实不搭,其实这都是借口。
从概率学来说,机会对每个人都是均等的,那个和你擦肩而过的她,只怪你没抓住!
恋爱结婚是大多数人都要经历的,对男神、女神都有自己的一套描绘。相亲网站上的各种择偶标准,实际上就是标签,最终在你的头脑中生成一个画像。
女神是这个样子的……
漂亮、冰雪聪明、
男神应该长这样……
高富帅、酷
但是你真的想多了,快醒醒吧!
具体什么样的才匹配你,“门当户对”还是有科学道理的。
相亲=就是互相打分、建模的过程
如何用科学的方法来解决这个问题呢?这就需要利用数据建模来综合打分。比如维度包括:地区、职业、收入、年龄、财务状况、身高、气质、性格、家庭条件等。
本文以我们百分点的数据科学家为例。
第一步:数据科学家建模流程
1.数据科学家本身的属性:
女,五官端正,23岁,企业白领,收入中等,海归
2.各种渠道所收集到男同胞信息的训练集:
总共509名男性,符合其相亲要求的有308名,不符合则有201名
3.数据科学家对另一半的基本要求:
a)性别当然是异性
b)长相:要帅帅的
c)年龄:比自己要大,成熟稳重型,但不能超过35岁
d)收入:中等以上,不能比自己更低
e)职业:视上述情况而定,不要经常加班
4.数据科学家根据上述条件对相亲对象进行分类:
见 或者 不见
那么对于这类问题,可以采用决策树进行建模,其建模流程为构建一颗“倒立”的决策树的过程。
哪些指标最重要=择偶?=哪些指标次重要
构建决策树模型,一般包含三个步骤:特征选择、决策树的生成和决策树的剪枝。其中,最关键步骤是特征选择,也叫分裂属性的选择,所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支,比如“年龄”、“长相”均属于分裂属性,其目的是让各个分裂子集尽可能地“纯”,所谓的“纯”是尽可能将某个分裂子集中的判断结果属于同一类别。
而对于分裂属性的“纯”度,机器学习中通常称之为信息熵,描述为系统混乱程度的度量。系统越有序,信息熵就越低,反之,则越高。
特征选择:
对于特征选择的方法有三种:信息增益、信息增益率和基尼系数。
在数据科学家相亲的例子中,发现职业的信息增益值非常小,于是将其剪枝以后变成图右边的形式。
最大变量
还有一点就是,我们每个人眼中的价值标准都不一样,所以我们可以看到这么多元的爱情:张生与崔莺莺、白瑞德与郝思嘉、罗密欧与朱丽叶……这些故事代代传颂,足以证实每个年代都有在世人看来“不可能”的爱情正在发生。
我们都是有感情有弱点的动物。婚姻的神奇在于,这种利益交换有时候是不对等的,而让它不对等的原因,是我们所说的变量。
这个变量叫“感情”。因此最后加权得分中,还要综合你的主观打分。 毕竟自己的爱情观,完全取决于你自己。只希望在科学建模基础上帮你你筛选出你想要的。