Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

第二周任务(09-18) #3

Open
will-ww opened this issue Sep 18, 2023 · 30 comments
Open

第二周任务(09-18) #3

will-ww opened this issue Sep 18, 2023 · 30 comments

Comments

@will-ww
Copy link
Contributor

will-ww commented Sep 18, 2023

本周任务如下:

  • 阅读课件
  • 完成课后“践习题” 1~9 题
@will-ww
Copy link
Contributor Author

will-ww commented Sep 18, 2023

本周我们再补充一个选答题,有兴趣的同学可以试试(直接在本 Issue 下进行回复):

题目:数据思维是以数据为核心的问题求解方法,搜索引擎、推荐系统、机器学习模型,均是数据思维的体现。阅读下面这篇小短文,参照里面的例子(航空联程设计),给出一个你认为的能否反映数据思维的示例。

DS-thinking.pdf

@kevinyao0901
Copy link

示例:在线零售商通常拥有大量的用户购买历史、浏览记录和产品评价等数据。通过应用数据思维,他们可以将这些数据作为核心资源,进行深入分析和挖掘,以为每个用户提供个性化的产品推荐。利用协同过滤,内容推荐,机器学习模型等方法,利用用户购买历史和评级数据,找到与目标用户兴趣相似的其他用户,然后根据这些相似用户的购买行为向目标用户推荐产品。
个性化推荐通过分析产品的属性、类别、描述和用户的浏览行为,构建产品和用户的关联性模型,从而为用户推荐相关的产品。使用机器学习算法,基于用户的历史购买数据和其他特征,构建预测模型,预测用户可能喜欢的产品,并向其进行推荐。
通过数据思维的应用,在线零售商可以更好地理解用户的需求和行为模式,提供个性化、准确的产品推荐,从而提升用户体验、增加销售额。

本例中将数据作为核心资源,帮助解决问题和优化业务流程。个性化推荐以数据为基础、以数据驱动决策,体现了数据思维的思考方式。

@Wflbb444
Copy link

从一个实例看数据思维:现在新闻传播及社交媒体之中存在的个性化推荐机制,便是一个使用了数据思维的例子。它通过各种渠道跟踪获取大量数据信息,进行筛选、加工、整合,最后实现个性化精准投放。个性化推荐机制采集受众的兴趣爱好、社交关系、生活习惯、工作性质等行为数据,再使用智能算法匹配用户所需的内容,根据用户平时的使用各种软件的频率以及倾向,实时地把用户所需的信息精准推送给个人。无论是音乐、视频还是广告,都以一种更加令人青睐的方式出现在用户首页,让用户产生一种“这个号养好了”、“这软件懂我”的心态,因此增加了曝光率和点击率,实现了“精准营销”,也大大提高了平台收入。
然而,由大数据推送所带来的“信息茧房”问题,也是人们值得警惕的。由于个性化推荐机制太了解人们的喜好,每天看到的信息都是自己认同且喜欢的。长此以往,会造成思维闭塞,故步自封,以天下之美为尽在己。为了跳出“见笑于大方之家”的思维困境,我们应当认识到,自己是有独立思想的个体,应该利用科技,而不是被科技左右。
使用数据思维思考问题也是如此。数据是对物理世界的反映,在解决问题时不仅要收集数据,更重要的是探索数据,发现解决现实问题的途径。数据思维提供了另一种解决复杂问题的途径,理应在新时代成为不可或缺的计算思维之一。

@jjhengxin
Copy link

想要知道食堂里哪一个窗口的哪一种菜品是最好吃且实惠的,如果对每道菜品进行口味、价格的打分,再进行综合评估,过程繁琐且不好确定量化标准。

利用数据思维,可以直接统计一段时间内每道菜被点的次数和回头率,从而容易得出最受欢迎的菜品。

@yhhe2004
Copy link

一个能够反映数据思维的实例是电影推荐系统。推荐系统是一种利用用户行为和偏好数据来预测用户可能喜欢的物品或内容,并向其提供个性化推荐的技术。电影推荐系统可以通过以下步骤来实现:

  1. 数据收集:收集用户的观影历史、评分、喜好标签等数据,同时获取电影的元数据,如类型、演员、导演、制片国家等。
  2. 数据建模:基于收集到的数据构建电影和用户之间的关系模型。可以使用图结构或矩阵表示电影和用户之间的关联关系。
  3. 相似度计算:通过计算电影之间的相似度,找到与用户喜欢的电影相似的其他电影。相似度可以基于电影的类型、演员、导演等属性进行计算。
  4. 推荐生成:根据用户的历史行为和相似度计算结果,生成个性化的电影推荐列表。可以使用协同过滤、内容过滤、深度学习等算法来生成推荐结果。
  5. 评估和优化:通过用户反馈和评估指标(如点击率、转化率)对推荐结果进行评估,进而优化推荐算法和模型。

在这个实例中,数据思维的核心是利用用户行为和电影元数据构建数据模型,并通过数据分析和算法来进行推荐。推荐系统利用大量的数据和算法,能够根据用户的个性化需求和偏好提供精准的推荐结果,从而提升用户体验和满足用户需求。

By ChatGPT

@GUJIEJASON
Copy link

学校对于课程的评价如果只是从上课内容以及学生成绩方面是难以全面客观地评价一门课程的,但是学校可以通过收集学生选课记录以及课后反馈,上课缺勤、迟到率,期末考试的及格率等数据来进行数据分析,进而分析出哪些课口碑好,学生热情高,对学生有帮助,哪些课仍需改进,进而在来年选课时根据这些结论来调整课的数量以及每堂课的人数。
本例即利用数据思维,构建了一个给学校的课程推荐系统,方便学校更高效地利用教学资源同时尽可能地满足学生的需求。

@Jinbao2333
Copy link

考完试放学,急匆匆地打开手机,点开APP,发现今天考的试分数已经全部出来了。颤抖着仔细看看每一道题的得失分情况,看一眼总结,看看自己是不是“六边形战士”。最后可能还会偷偷进行一次“好友PK”,和朋友一决高下……
以上的经历,我想不少同学也会有。这就是我觉得近年来能体现数据思维的一个例子——智学网。虽然在学生群体中,这个软件可以说是极其“不受待见”,但是在毕业以后——也就是脱离了智学网的“管辖范围”,回头想来,其也有许多传统教育行业没有的优势。数据思维可以为传统行业带来巨大变革,使得原来的不可能变为可能,使原来的可能变为轻松。文章中的航空联程设计这个例子,我们能够深刻地感受到数据思维带来的巨大优势,而教育行业也是类似的。
传统的教育行业,更多反映出的是一个群体的平均水平
,而非个人水平。在这样的情况下,如果想教好每一位同学,那么正如之前所说的一样,不是做不到,而是很耗费精力。对于一整个班包括上中下游的同学,追求极致的老师要做的事情很多。特别是对于每个同学单独的个性化需求,很难得到精准跟踪。但是智学网的出现能够很大程度改善这个局面。
就以考试为例,一位传统教师对于一场考试的操作可能是阅卷→分析成绩→讲评。对于整体情况的把握,这种方式无可厚非,但是若是细致到每位同学头上,那将是一场巨大的辛劳。而有了智学网以后,从组卷过程开始就变得轻松了:曾经错过的题型,以全新的题目形式被“端”到了老师们的面前,而不用劳神总结、出新题;而对于成绩的总结更是省力不少:成绩分布、每道题的作答情况、知识点的掌握情况、每位同学的走势、偏科情况……,都以十分直观的数据形式展示于眼前。曾经有经验的老教师耗费精力才能实现的详尽总结,现在所有的教师都能轻松据此反思总结。而且数据不仅针对老师,学生和家长同样可以获取对应数据,方便同学们正确高效地进行自我评价、制定下一步的计划;方便家长及时了解孩子的学习情况,给出奖惩机制。
当然,在这里只是讨论了数据思维为这样的传统难题带来的解决可能性,以及其后起之秀般的优势。有人可能会质疑这样的措施对于教师是否会产生能力的影响,以及是否会产生对学生的过度压力,这无疑也是一把双刃剑。日后,能不能利用数据思维解决这些问题,还有待思考与进一步探索。

@litterqi
Copy link

数据思维的示例:健康监测和预测系统。
现在,许多人在日常生活中使用健康设备(如智能手环、智能手表等)来监测自己的健康状况。这些设备可以收集有关心率、血压、睡眠质量、运动量等方面的数据。通过对这些数据进行分析和挖掘,可以帮助用户更好地了解自己的健康状况,并提供个性化的预测和建议。
首先,健康监测设备会收集大量的生理数据,例如心率的变化、血压的波动、睡眠的质量等。这些数据可以通过传感器、算法等方式进行收集和处理,形成健康数据。
接下来,可以应用数据分析科学和技术来探索和理解这些健康数据。我们可以计算心率的平均值、血压的趋势、睡眠过程中的不同阶段等。通过这些分析,用户可以了解自己的基本健康状况并发现潜在的问题。
然后,我们可以使用人工智能,机器学习等模型来进行健康状态的预测。根据历史数据,结合用户的个人信息和生活习惯,可以建立模型来预测未来的健康状况。例如,我们可以根据过去几个月的心率数据和睡眠质量,预测下一个月用户可能会面临的健康风险和改善方向。
总之,通过数据思维的方法,健康监测和预测系统通过收集和分析个人健康数据,并应用数据科学模型进行预测,可以提供用户个性化的健康建议,例如定期锻炼、合理饮食、规律作息等,从而帮助用户更好地管理和改善自己的健康。

@ArcueidType
Copy link

更加智能合理的进行交通管理是一个很能反应数据思维的实例:
在这样的管理中,第一步就是数据收集。城市交通系统通常安装了各种传感器、监控摄像头、GPS设备以及智能交通信号灯。这些设备能产生大量实时数据,包括交通流量、车辆速度、道路状况、事故报告等。
接下来要进行数据分析,通过数据分析工具和技术对收集到的数据进行处理和分析。这些数据可以用来识别交通拥堵的原因,分析高峰时段的交通流量,了解交通模式和趋势。同时,将这些数据用于机器学习可以用来预测各路段交通拥堵发生的可能性以及交通事件的可能影响。
通过数据分析后,交通管理人员可以优化交通信号灯的控制。包括调整信号灯的时序,以最大程度地减少拥堵和等待时间,优化路口的通行能力等。数据思维能够使交通信号灯的控制更加智能。
在数据思维支持下的交通管理能够为我们的日常生活带来更多的便利,数据思维更多的在日常生活中应用也会为人们带来更多的好处。

@VirgilZhu
Copy link

依托当代人们大量的外卖需求,美团通过完善的外卖平台迅速发展壮大,极大程度上依靠了根据用户信息个性化推荐外卖店的大数据和机器学习技术。
首先,美团平台收集大量包括历史订单、浏览历史、搜索记录、位置信息、点评评分等用户数据,通过数据处理、建模,建立包括用户的口味偏好、常点店家等特征信息的用户画像;同时收集商家的用户打分、菜品销售数据、位置信息、用户评价等相关数据,建立外卖商家的画像模型,以匹配推荐后的用户模型。
相比单纯的按距离、打分排序推荐商家,通过数据处理、机器学习、算法筛选、模型测试建立的个性化推荐算法更大程度上适配了用户需求与商家特征,同时不同的推荐算法不断迭代,随着数据集增长实时更新,显著提升用户体验和商家出单量。
上述即为外卖平台将具象的数据集通过数据处理建立成抽象的数学模型,体现出外卖平台认识并改变世界的方法的数据思维。

@xxy-0123
Copy link

社交媒体已成为人们日常生活中重要的交流和信息获取渠道,而通过对社交媒体数据进行分析,可以获得有关用户行为、情感和话题趋势的洞察,为企业和品牌提供市场洞察和用户需求分析。社交媒体数据分析的过程通常包括以下几个步骤:
1、数据采集:通过API接口或网络爬虫等方式,收集社交媒体平台上的用户生成内容,如推文、帖子、评论等。这些数据可以来自于多个社交媒体平台,如Twitter、Facebook、Instagram等。
2、数据清洗与整理:对采集到的数据进行清洗和预处理,去除噪声、无关内容和重复数据,将数据整理成结构化的格式,以便后续的分析和挖掘。
3、关键词提取和情感分析:利用自然语言处理技术,提取文本数据中的关键词和主题,并进行情感分析,判断用户在社交媒体上表达的情感倾向,如积极、消极或中性。
4、用户行为分析:通过分析用户的行为模式,如点赞、转发、评论等,可以了解用户对特定话题或内容的兴趣和参与程度。这有助于了解用户喜好、影响力以及他们与品牌之间的互动关系。
5、话题趋势分析:通过识别和跟踪社交媒体上的热门话题和趋势,可以洞察公众对特定事件、产品或社会问题的关注度和讨论热度。这有助于企业了解市场动态和用户需求的变化。
6、竞争对手分析:通过监测竞争对手在社交媒体上的表现和用户反馈,了解其品牌形象和市场竞争力,为自身品牌制定营销策略提供参考。
7、可视化和报告:将分析结果以可视化的方式展示,如生成图表、热力图、词云等,使得数据更加直观和易于理解。同时,生成报告和摘要,向决策者和利益相关者传达关键洞察和建议。

通过社交媒体数据分析,企业和品牌可以深入了解消费者的需求、偏好和行为,并根据这些洞察进行市场定位、产品改进、品牌推广等决策。这种数据思维的应用帮助企业更好地理解市场环境,优化营销策略,提高竞争力和用户满意度。

                                                                                                                                                                     By ChatGPT

@zerowinter0
Copy link

比较典型的基于数据思维的算法之一就是推荐算法协同过滤算法是推荐算法中常用的一种。我们可以使用多种类型的协同过滤算法来推荐个性化商品给用户。朴素的基于用户的协同过滤算法可以根据以往的购物记录计算得出与x用户相似度最高的用户群体,再将该用户群体中最喜欢的且没有被x用户购买过的商品推荐给x用户;朴素的基于商品的协同过滤算法可以根据不同商品之间被不同用户喜好/购买的记录来给商品两两计算相似度,再基于x用户之前喜好/购买的商品来为其推荐与这些商品相似度高的商品,可用的一种公式为余弦相似度公式。除此之外我所知的推荐算法还有基于标签的推荐算法(部分app/网站会在用户注册时询问用户喜好的内容以推荐具有相似标签的内容给用户)等。在实际应用中通常会将不同推荐算法结合起来使用,比如以不同权重乘以同一个商品在不同算法下得出的喜好值得出该商品的最终喜好值,再综合排序来为用户订制推荐清单;亦或者考虑将物品标签之间的相似度加入基于物品的协同过滤算法的相似度计算公式中。回归主题,基于各种不同类型的数据,我们可以使用不同类型的推荐算法并将其相互组合来起到良好的推荐效果。除了推荐喜好的物品以外,多样的数据也可以用来进行更加人性化的推荐。例如,各类菜品的食材、所含营养物质的数据与外卖平台用户近期购买的外卖记录数据相结合,可以用于推荐给用户更加健康规律的饮食推荐菜单。

@Floyed11
Copy link

医疗诊断决策支持系统

在医疗领域,数据思维可以发挥关键作用。假设医院需要为患者提供准确的诊断和治疗建议,而这需要综合考虑患者的医疗历史、症状、实验室检查结果以及患者的个人信息。传统方法可能会依赖于医生的经验和知识,但数据思维可以通过收集、分析和利用大量医疗数据来提供更科学的决策支持。

  1. 数据采集与汇聚: 医院可以收集来自不同患者的医疗数据,包括临床记录、影像数据、实验室结果、药物敏感性数据等。这些数据可以汇聚到一个大型数据库中。

  2. 数据建模和组织: 利用数据科学和数据库技术,可以将这些数据进行建模、组织和管理。这可能包括将患者信息与疾病诊断、治疗方案和结果相连接,以建立全面的医疗数据模型。

  3. 数据分析和挖掘: 利用数据分析和机器学习算法,可以从大量数据中挖掘出模式、趋势和关联关系。例如,可以通过分析患者群体的数据,确定某种疾病的潜在风险因素或疗效最佳的治疗方法。

  4. 数据可视化: 最后,通过数据可视化工具,医生和医疗决策者可以直观地查看分析结果,以便更好地理解数据,作出决策并向患者传达诊断和治疗建议。

这个示例展示了数据思维如何在医疗领域中应用,通过数据的采集、整理、分析和可视化,帮助医疗专业人员做出更准确和个性化的诊断和治疗决策,提高了医疗保健的质量和效率。这体现了数据思维作为问题解决方法的核心,将现实世界映射到数字世界,以改进我们对世界的理解和解决复杂问题的能力。

                                                                                                                                                                                    by chatGPT

@limboy058
Copy link

某软件音乐推荐系统(杂谈)
算法类大致可以分为以人为本和以物为本

以人为本
很好理解,已知A喜欢x、y、z三首歌;B喜欢x、y,则可以把z推荐给B。
关于定义喜欢和不喜欢,喜欢可以包括点击红心,评论,下载,收藏,分享,播放次数,完播率等
不喜欢可以包括快速切换,点击不喜欢,取消红心等
一般来说,这样推荐的方法是较为精准的,但也存在一些缺点:

  1. 对于初期用户,只能先推荐一些热门歌曲作为试探,可能会导致用户找不到自己个人喜欢的曲子,导致用户流失

(解决方法有先让用户选择自己喜欢的口味)

  1. 歌曲同质化,就我个人来说,听歌风味经常转变,欧美英文曲子和电音一些后摇,日文的萌系歌曲和小众音乐,不喜欢旋律比较单调的,听了一些日系女声+电音,主要听Melodic dubstep,前段时间的HDM,对了还有纯音乐。最近火起来的冯克已经听厌了。。。以及一些游戏类番剧类的曲子吧。主要的问题在于我需要不用的跟我近期不太一样的曲子,而歌曲推荐方式会正反馈导致有些同质化。所以我甚至不敢点太多的喜欢。。但是这又会导致在近期的喜欢的新类型的比例很容易升高

(之前某个时刻发现QQ音乐新增了功能,在音乐DNA中可以设置推荐的音乐熟悉度为“更探索”,对这个问题确实有一定的效果,日推的歌曲确实种类同时包括了三四类我想听的)

以物为本
给歌曲打tag,根据不同人喜欢的类型刻画用户画像,推荐含有其喜欢的tag的歌曲
规避了一些问题,但也有一些缺点

  1. 工作量大。曲库中有很多首歌,对于很多的小众歌曲,可能在人工一一打tag时有一定成本(我猜测)。对于自建的歌单,如果想要其被更多人尝试,需要给其打tag(不超过三个),经查阅确实有认为算法会综合把歌单tag提取到歌曲tag的观点,也确实会一定程度上减少工作量。使用许多优化可以使得推荐更具时效性

实际来说
当然多种推荐方式是相互配合,从多维度综合考量,进行排序的

关于其他问题

  1. 在较大的“我喜欢”的歌单中,想要找到自己当前喜欢的某个类型是一件不容易的事(特别是对于懒得整理归类的我来说),比如午睡去了,找了一首轻音乐入眠,结果下一首随机的HDM直接给人干醒了(dbq我是起床铃),基于这种需要,我觉得随机算法可能需要优化。比如当用户对于某些歌表现出不喜欢时暂时减少此类tag的歌曲的出现。可能是算法已经优化了(?),最近其实不太感觉到随机的下一首歌曲风格出现特别大相径庭的那种,本来算法就是一个逐步优化的过程。

  2. 关于某些仅仅是我暂时想听一下的歌曲,类似风格的曲子可能会在未来一段时间的推荐列表中频繁出现。就像前段时间玩了消逝的光芒(一个游戏),在b站查了几次攻略,本来觉得帮到我了支持一下没问题于是点赞投币了,结果给我推的越来越多了。。。类似的事情每隔一段时间就会上演,当然也可能是因为我之前的点赞太少了导致新的比重过高(?)我一直希望自己的大数据画像是多维丰富的,而不是单一某种类型而呆在信息茧房,只看到大数据想让我看到的。所以感觉个人数据面貌是很宝贵且隐私的吧,略慎重地点赞投币(?)

@limboy058
Copy link

另外一个小小的问题,课本那个过河问题,书上画出的图中的"人羊狼----菜"的路径其实是不存在的
一共应该只有10条合法路径)
image

@zerowinter0
Copy link

另外一个小小的问题,课本那个过河问题,书上画出的图中的"人羊狼----菜"的路径其实是不存在的 一共应该只有10条合法路径) image

赞同🎉

@Zzzzzhuzhiwei
Copy link
Collaborator

另外一个小小的问题,课本那个过河问题,书上画出的图中的"人羊狼----菜"的路径其实是不存在的 一共应该只有10条合法路径) image

是的,这确实是课本上存在的一个小问题。

@jiyeoniya
Copy link

本周我们再补充一个选答题,有兴趣的同学可以试试(直接在本 Issue 下进行回复):

题目:数据思维是以数据为核心的问题求解方法,搜索引擎、推荐系统、机器学习模型,均是数据思维的体现。阅读下面这篇小短文,参照里面的例子(航空联程设计),给出一个你认为的能否反映数据思维的示例。

DS-thinking.pdf

金融分析师的任务是预测股票市场的变化趋势。为了解决这个问题,往往需要分析历史股票数据。
首先,需要采集历史股票数据,包括每日的开盘价、收盘价、最高价、最低价等。这些数据可以从股票交易所或者金融数据服务商处获取。
在采集到数据后,需要进行数据清洗和整理,以去除异常值和缺失值,确保数据的准确性和完整性。例如,使用技术指标,如平滑移动平均线等,来处理数据的波动性和噪声。
接下来,使用数据分析和机器学习算法,对采集的数据进行建模和分析。可以使用时间序列分析方法,如ARIMA模型、HARIMA模型等,来分析股票价格的时间序列数据,以预测未来的股票价格趋势。
通过数据可视化工具,将分析结果以图形的形式展示出来,如折线图、柱状图和热力图等。这些图形可以帮助你更好地理解数据,发现其中的趋势和规律。例如,你可以通过热力图来分析股票价格的时间序列数据,以了解股票价格的波动性和市场的波动性。
通过上述的数据采集、建模、分析和可视化过程,金融分析师包括我们页可以发现股票市场的变化趋势和规律,可能会发现某些股票的价格波动与市场的大盘指数波动高度相关,这些股票的价格趋势可以作为大盘指数趋势的参考指标。这些发现可以作为创新的灵感来源,帮助我们更好地预测股票市场的变化趋势和投资机会。

@jiyeoniya
Copy link

另外一个小小的问题,课本那个过河问题,书上画出的图中的"人羊狼----菜"的路径其实是不存在的 一共应该只有10条合法路径) image

这里确实有问题 @jjhengxin

@augurier
Copy link

数据思维在生活中有许多实际应用,下面是一个关于健康和健身的实例:

健康追踪应用程序:许多人现在使用健康追踪应用程序,如Fitbit、Apple Health或Samsung Health,来监测他们的健康和健身数据。这些应用程序收集了用户的步数、心率、睡眠质量、卡路里消耗等各种生理数据,并通过图形和统计数据的方式将这些信息呈现给用户。用户可以分析这些数据来了解他们的健康状况,设置健康目标,并根据数据制定合适的健身计划和饮食计划。数据思维在这里体现在,用户使用数据来指导他们的健康决策,而不仅仅是凭借直觉或传统的方法。

例如,一个人可以通过分析他们的睡眠数据发现,他们通常在工作日晚上睡得不够,这可能会导致白天疲劳。通过这个观察,他们可以调整自己的作息时间表,以获得更好的睡眠。此外,他们可以通过记录他们的运动活动和饮食习惯来监测体重和健身进展,然后根据数据调整他们的锻炼和饮食计划,以达到健康目标。

这个实例展示了如何使用数据思维来改善生活质量和健康,通过收集、分析和应用个人健康数据来做出更明智的决策。

by chatgpt

@hwts3041712310
Copy link

数据科学思维在操作系统中的应用可以有多种形式,以下是几个具体的例子:
性能优化:
数据科学可以用来优化操作系统的性能。例如,可以通过收集和分析系统资源使用数据,如CPU利用率、内存使用情况、磁盘I/O等,来找出性能瓶颈。这可以通过数据可视化(如热力图、直方图等)和机器学习(如异常检测、聚类等)技术来实现。
一种可能的例子是,通过收集和分析系统日志,发现系统的CPU利用率在某个时间段内异常高。进一步分析显示,这个时间段内运行的一个特定应用占用了大量的CPU资源。通过这种发现,系统管理员可以优化该应用的运行,例如通过调整其运行优先级,或者在更强大的硬件上运行,来提高系统的整体性能。
安全风险分析:
数据科学也可以用于操作系统的安全风险分析。例如,通过对系统日志、网络流量数据的分析,可以检测到异常或可疑的活动,如未经授权的访问、恶意软件等。这需要对数据的深入分析和挖掘,包括统计分析、模式识别、异常检测等。
一个可能的例子是,通过分析系统的网络流量数据,发现有一个IP地址在短时间内进行了大量的网络连接请求,且这些连接请求的来源非常分散。这可能表明了一种被称为“拒绝服务”的攻击行为。通过这种发现,系统管理员可以及时采取防御措施,如限制该IP的访问,或者寻找攻击的来源。
用户行为分析:
数据科学还可以用于分析用户在操作系统中的行为。例如,通过收集和分析用户在操作系统中打开的文档、访问的网站等信息,可以理解用户的行为习惯和需求,从而提供更好的个性化服务。
一个可能的例子是,通过分析用户在操作系统中的文件访问记录,可以发现用户在某个时间段内经常访问一类特定类型的文件。这可能表明用户在这个时间段内有某种特定的工作需求。通过这种发现,系统管理员可以提供个性化的服务,例如在这个时间段内向用户推荐相关的信息或应用。
预测性维护:
在操作系统中,数据科学也可以应用于预测性维护。例如,通过收集和分析系统的运行数据,可以预测哪些部分可能会在未来的某个时间点出现问题,例如硬盘寿命即将到期或某个驱动程序即将更新。这需要对数据的深入分析和挖掘,包括时间序列分析、异常检测、机器学习等。
一个可能的例子是,通过分析系统的硬盘I/O数据和驱动程序更新日志,可以预测某个硬盘将在未来一段时间内出现问题。通过这种预测,系统管理员可以提前进行维护和更新,以避免系统停机。
能源管理:
数据科学在操作系统的能源管理方面也有应用。例如,通过收集和分析操作系统的能源使用数据,可以帮助找出哪些部分(例如CPU或内存)在使用过程中消耗了大量的能源。这可以通过数据可视化技术和统计分析来实现。
一个可能的例子是,通过分析操作系统的能源使用数据,发现某个时间段内CPU的能源消耗异常高。进一步分析显示,这个时间段内运行的一个特定应用占用了大量的CPU资源。通过这种发现,系统管理员可以优化该应用的运行,例如通过调整其运行优先级,或者在更低功耗的硬件上运行,来降低系统的能源消耗。
总的来说,数据科学思维在操作系统中的应用非常广泛,具有很大的潜力和价值。随着数据科学技术的发展和进步,相信这种应用会越来越普遍和有效。

by ChatGPT

@DarkWesley
Copy link

网络视频平台在各项服务中都运用了数据思维。
以国内的Bilibili弹幕网(下简称“B站”)和海外的Youtube(下简称“油管”)为例,它们都属于UGC平台,即使用用户生成内容(User-Generated Content)的模式。

  1. 管理用户生成内容:使用数据分析来监控和管理用户上传的大量UGC内容。他们使用自动化工具和算法来检测不适宜的内容,以确保平台的内容质量和合规性。
  2. 弹幕内容管理:弹幕指视频中的实时评论,B站通过模仿日本视频平台“NICONICO动画”,率先向国内引入了视频弹幕。视频弹幕已经成为了与视频密切相关的一部分,因此对弹幕进行管理对改善用户体验来说也是必需的。B站对弹幕管理参考了各项量化指标:点赞量,发布时间,样式(包括字体颜色、滚动or停留于顶部/底部等),重复性(例如视频同一时刻有大量相同弹幕),是否为超级弹幕(特殊的弹幕形式),有无举报(内容是否合规)等等。
  3. 用户视频推荐:统计用户观看视频习惯,生成一定的用户画像并推送。参考的量化指标有:观看视频的标签(话题),是否喜欢(点赞、收藏、转发行为),观看时长等。推送内容参考的量化指标有:相同或相关标签(话题),相同视频分区,相同作者等。
  4. 创作者收益(仅讨论视频板块,不讨论直播):UGC模式平台需要向上传视频的用户支付一定的创作收益,以鼓励用户继续创作,丰富平台内容。参考的指标有:播放量,播放时长,点赞、收藏、转发量等。
    但是,目前这些平台存在一些弊端,例如:反复推送内容质量低下的广告视频;优先推送大体量(关注者数较多)的视频博主等。

by myself

@ttttkx
Copy link

ttttkx commented Sep 24, 2023

一个采用数据思维改善科研工作效率的示例是通过分析和挖掘大量的科研文献数据,以辅助研究人员在科学研究中做出决策。目前,科研人员需要花费大量的时间来搜索和筛选大量的文献资料,以找到与自己研究领域相关的信息。知网等科研文献库提供了检索功能,但是缺乏对于科研文献数据的整合和综合能力。

基于大量的科研文献数据,可以自动化地对文献进行分类,向研究人员展现文献之间的关系、研究主题、创新点,结合自然语言处理等人工智能技术,通过智能摘要和知识图谱,可以发现一些隐藏的规律,帮助科研人员更快了解所处科研方向最新进展,辅助科研人员分析可行的研究路径,提高科研工作的效率和准确性。

@Gav1n-is-here
Copy link

示例:在竞技体育中的魔球理论(money ball),起源于棒球,发扬于篮球,通过数据分析评价球员以保证在有限的资金下通过交易能获得更有竞争力的球员,改善打法,如引入真实命中率并且和不同位置的投篮分布命中率图,得出出三分球和攻框是效率更高的进攻方式的结论,通过大量统计帮助球员优化掉部分不合理的选择;通过基础数据的加权得到的一些per,gsc类数据,通过基于大量数据的分析决定权重产生一个一体化数据,更好地评价一个角色球员;但还是属于基于基础数据的线性组合,在对主力球员分析时难以体现其吸引防守资源和组织己方进攻的作用,因此诞生winshare等新的高阶数据,不断丰富评价维度。

@WangXueFei11
Copy link

示例:试衣间的大数据应用
传统奢侈品牌PRADA正在向大数据时代迈进,在纽约及一些旗舰店里开始了大数据时代行动。在纽约旗舰店里,每件衣服上都有RFID码,每当顾客拿起衣服进试衣间时,这件衣服上的RFID会被自动识别,试衣间里的屏幕会自动播放模特穿着这件衣服走台步的视频。人一看见模特,就会下意识里认为自己穿上衣服就会是那样,不由自主地会认可手中所拿的衣服。
而在顾客试穿衣服的同时,这些数据会传至PRADA总部。包括:每一件衣服在哪个城市,哪个旗舰店,什么时间被拿进试衣间,停留多长时间,数据都被存储起来加以分析。如果有一件衣服销量很低,以往的作法是直接被废弃掉。但如果RFID传回的数据显示这件衣服虽然销量低,但进试衣间的次数多。那就说明存在一些问题,衣服或许还有改进的余地。
这项应用在提升消费者购物体验的基础上,还帮助Prada提升了30%以上的销售量。传统奢侈品牌在大数据时代采取的行动,体现了其对大数据运用的视角,也是该公司对大数据时代的积极回应。

案例中,物联网和大数据的结合是成功的关键,利用了物联网技术来收集数据,大数据技术进行分析,进而得出市场需求的结论。在服装领域,大数据等新技术正在发挥着巨大的作用。

@wuwen03
Copy link

wuwen03 commented Sep 25, 2023

在如饿了么、美团等外卖平台能够很好的体现数据思维。从两个角度来说,用户方面、骑手方面。
外卖平台首先需要推送外卖商家到用户。外卖平台可以根据用户以往的点单情况、搜索情况、下单时候的时间段等等数据,还可能结合其他用户的下单情况,来精准推送用户更加可能的、或者偏好的商家。比方说,如果一个用户常常下单炸鸡,有可能外卖平台就会更多的推送西式快餐类的店家。如果是在晚上下单,那么更加可能推送夜宵类的食物。
对于骑手方面,平台要将订单分配给骑手,如何分配就涉及了大量的数据分析。平台要结合骑手的位置、店家的位置、目的地的位置、路况、天气情况、骑手当前的订单数量、出餐需要的时间等等数据,决定一份订单要分配给哪一个骑手,以求能够更快的将事物送到用户的手中。

@predormit
Copy link

在交通运输领域,数据思维可以应用于多个方面,例如实时监控交通流量、车速、拥堵情况等数据,安装传感器和摄像头,再通过数据分析算法将这些数据进行处理生成实时的交通状况地图。交通管理人员可以根据这些数据,准确了解道路拥堵、事故等情况,并及时采取措施缓解交通压力。此外还可以结合过往所收集的历史交通数据,对交通流量进行预测,帮助司机们提前调整行程路线,避开拥堵,减少交通堵塞,优化出行体验。从另一个方面考虑,还可以基于收集到的交通数据和目的地的信息,可以利用路线规划算法生成最佳路径。这些算法可以考虑交通状况、路况,甚至考虑特定时间段的交通模式。通过计算不同的路径,可以为司机和乘客提供最佳的行驶方案,减少行程时间和燃料消耗。最后,这些数据也
可以优化交通信号灯的控制。基于对数据的分析和模拟,交通信号灯可以根据交通流量的变化进行调整,提供更有效的交通信号灯配时方案。这项技术被称为智能交通信号灯控制系统,能够减少等待时间、提高交通效率,减少交通拥堵。

@realtyyyyy
Copy link

在上述描述中,旅行建议的示例是典型的数据思维的体现。具体来说,该示例采用了数据驱动的方法来解决旅行建议问题,以旅客、机场和旅行历史的数据为基础,通过数据分析、统计和数据挖掘的手段,从历史旅行记录中挖掘出最受欢迎的路线,为客户提供旅行建议。

这个示例中展示了数据思维的关键特征:

以数据为核心: 数据思维以数据为基础,通过收集、整理和分析数据来解决问题。在这个示例中,旅客、机场和旅行历史数据是解决旅行建议问题的基础。

数据分析和统计: 通过简单的统计方法对旅行历史记录进行分析,发现最受欢迎的路线,这展示了数据分析和统计在数据思维中的重要性。

数据挖掘和机器学习: 示范了更复杂的数据挖掘和机器学习方法的应用,以发现并探索规律,从而改进旅行建议服务。这种方法能够提高建议的个性化程度和准确性。

提供实用建议: 最终的目标是为客户提供有用的旅行建议,这种建议是基于历史旅行数据的分析和挖掘得出的,具有一定的实用性和可信度。

这个示例充分体现了数据思维的理念,通过利用大量的数据和数据分析技术,为解决实际问题提供了有力的支持和解决方案。

@litterqi
Copy link

另外一个小小的问题,课本那个过河问题,书上画出的图中的"人羊狼----菜"的路径其实是不存在的 一共应该只有10条合法路径) image

好厉害😍😍😍

@realtyyyyy
Copy link

另外一个小小的问题,课本那个过河问题,书上画出的图中的"人羊狼----菜"的路径其实是不存在的 一共应该只有10条合法路径) image

好厉害😍😍😍

雀氏厉害

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests