社会计算是计算机科学的一个领域,它关注社会行为和计算系统的交叉。它基于通过使用软件和技术创建或重新创建社会习俗和社会环境。因此,博客、电子邮件、即时消息、社交网络服务、维基、社交书签和其他通常被称为社交软件的实例说明了来自社交计算的想法。
社会学基础 I
社会的透明性:设计支持社会进程的系统的方法
在他们的第一篇论文中,《社会的透明性:一种设计支持社会过程的系统的方法》,埃里克森和凯洛格设计了通过计算网络支持沟通和协作的系统,用于大群人之间的沟通和协作。他们提出这样的数字系统,并将纳入三个特征,即可见性、意识和责任。连贯性和空间之间的联系突出了人们利用他们的经验和专业知识来构造他们的互动的能力。从本质上讲,支持这种社会需求的架构将提供社会的半透明性。因此,展示了人类社会的半透明性。
Social Translucence: An Approach to Designing Systems that Support Social Processes
在社交网络上设计社交透明性
在他的第二篇论文《在社交网络上设计社交透明性》中,吉尔伯特提出了一个社交透明性的理论并构建了Link Different。该设计将允许与相同的人进行自动校准。这种设计将允许自动校准与同龄人的关系。因此,社会半透明性的原则被遵循。在这些例子中,可以看出人们在生活中往往对社会半透明性有特别的需求。人们在网上社区的参与与他们在现实世界的集体环境中的参与行为不同。每天人类都习惯于使用“社会线索”来指导他们的决定和行动,和现实世界一样,在虚拟社区中提供社会线索可以帮助人们更好地理解他们在这些环境中面临的情况。通过给他们提供更多的知情选择来缓解他们的决策过程。说服他们参加那里的活动,更有效地安排他们自己的个人和团体活动。
Designing Social Translucence Over Social Networks
社会学基础 II
用社交媒体预测纽带强度
通过阅读《用社交媒体预测纽带强度》一文,埃里克利用社交网站的数据来确定朋友之间在社交方面的密切程度。作者觉得今天的社交媒体网站并没有对用户进行区分。他们要么是朋友,要么不是。他们认为,即使他们都是朋友,仍然有亲密和疏远关系的区别。我们可以通过朋友列表和互动历史来估计人们的联系强度。因此,在这项工作中。他们分析了朋友之间的互动记录来推断他们之间的关系。实验结果证明,他们的预测模型还是很准确的。给出了七个衡量社会关系密切程度的标准。预测变量线性组合模型,维度互动,和网络结构。用统计学方法分析了这些数据。得到了定量的测量结果。他们与用户调查得到的结果进行了比较。
Predicting Tie Strength With Social Media
弱关系的强度
在第二篇文章《弱关系的强度》中,格拉诺维特提出了强关系和弱关系的理论。他认为,人际网络可以分为牢固和薄弱网络。强关系指的是个人的社会网络的实质性同质性。人与人之间关系密切,坚实的情感因素支撑着人际关系。弱关系的特点是个人的社会网络具有牢固的异质性。格拉诺维特认为,关系的强度决定了所获得信息的性质和个人实现其行动目标的可能性。在他做的调查中,美国社会是一个弱关系社会。这就是说。他认识的各行各业的人越多,一个人就越容易做他想做的事。那些有更多固定和狭窄的互动关系的人就不太容易把事情做好。
社会学基础 III
小世界问题的实验研究
在他的第一篇论文《小世界问题的实验研究》中,米尔格拉姆探讨了世界上任何两个人认识对方的可能性有多大。他没有寻找两个人相遇的直接途径。相反,他关注的是连接这两个人的中间环节。于是,实验正式进行。在考虑了第一个人对关系链的影响、种族-民族对关系链的影响以及其他许多可能的因素对关系链的影响之后,由网络观察到的和局部的聚类系数的比率除以其观察到的和预期的平均路径长度的比率。结果证实,世界上两个随机的人之间只需要几个中间人就可以互相认识。这种方法可以在社会结构中大规模应用。社会网络通过熟悉的人之间的相互联系而扩大。
An Experimental Study of the Small World Problem
结构洞和好主意
在他的第二篇论文《结构洞和好主意》中,他调查了人们在社会网络中的地位和他们的想法的质量之间是否有任何联系。他发现,结构洞的概念提供了这方面的证据。在一个完全连接的社会网络中,每个人都与其他所有人直接相连。因此,各种信息都可以从一个人传播到另一个人。在这样一个网络中,不存在结构性漏洞。在另一种更常见的网络中,社会网络中的每个人并不直接与所有其他人相连。如果是这种情况,就存在结构性漏洞,即结构不完整。在这种情况下,网络中的信息流受到其结构的制约。网络中每个人可获得的信息内容不再是相同的。伯特发现,位于结构洞周围的人有巨大的优势。而这种优势又往往可以归结为,他们所接触的不同类型的信息导致了比其他人更可观的想象力。这个问题可以归结为我们在多大程度上可以接触到广谱和多样化的信息、意见或观点。
Structural Holes and Good Ideas
身份问题
虚拟社区中的身份和欺骗
在她的第一篇论文《虚拟社区中的身份和欺骗》中,Judith Donath研究了互联网的Usenet上的一篇文章,揭示了在网上互动中建立身份的方法。她认为,形成身份的第一种方式是创建一个账户名称。在网上发表文章也有助于建立身份。这是因为写作风格、所表达的内容以及对缩写和暗语的熟练使用都可以表明身份。此外,每篇文章的结尾都有一个签名。这也是确立身份的一个重要手段。签名是会员用来展示他们的兴趣、意见和职业的一种手段。它也是通过提供一个人工作的公司名称和他在公司的职位来确保一个人的网上信誉和责任。此外,签名中的作者主页是另一种建立身份的手段,它提供了一个链接到主页上的详细文件。作者可以更详细地确立自己的身份。
Identity and Deception in the Virtual Community
4chan和/b/:一个大型网络社区的匿名性和短暂性的分析
在第二篇论文《大型在线社区的匿名性和短暂性分析》中,我们提供了两个在线短暂性和匿名性研究。该网站的随机部分也被称为/b/。它是第一个被创建的部分,并且收到了最多的流量。虽然研究人员和从业人员经常认为用户身份和数据持久性是设计在线社区的核心工具,但它们也经常被认为是最重要的。尽管几乎完全是匿名和极端的。这表明,有趣的图像和链接交流在社区中占主导地位。我们发现,大多数线程在第一页上只花了五秒钟。他们描述了/b/参与者用来建立状态和建立互动的替代机制。
4chan and /b/: An Analysis of Anonymity and Ephemerality in a Large Online Community
披露和监管
社交媒体时代的自我展示:区分网上的表演和展览
在他的第一篇论文《社交媒体时代的自我呈现》中,霍根提出了双因素理论。他认为,情绪是影响个人工作满意度的一个基本内在因素。简而言之,霍根认为,在模仿方面,在线社交互动与真实社交互动的显著区别在于,在线社交互动不能局限于访问者的时间、地点和社会环境。这使得交流软件的前端完全不可预测。因此,霍金认为,在网络媒体时代,人在社会场景中的角色已经从表演者变成了策划者。他们只能通过有规律的方式展示自己最舒服的一面。以避免在遇到未知的来访者时,出现情境崩溃。
网络日志的匿名性和自我披露
在他们的第二篇论文《网络日志的匿名性和自我披露》中,钱和斯科特发现。人们在网上发表的博客中透露了太多的个人信息,尤其是关于朋友、雇主和其他人的负面信息。这往往会导致在文化内和文化间建立建设性的人际关系的问题。更重要的是,新媒体的广泛使用可能导致某些低文化的丧失。即使在同一时期,由于各种原因,民族国家也不处于同一发展阶段。新媒体是高度发达的生产力的产物。人类总是倾向于推动事物的发展。因此,新媒体会掩盖公众动员和接受高雅文化的热情。拒绝自己的文化是可能的。此外,他们认为是自己的文化落后于社会的发展。此外,因此,在某种程度上,他们失去了自己民族的文化。
Anonymity and Self-Disclosure on Weblogs
社会资本和影响力
人人都是影响者:量化推特上的影响力
邓肯-瓦茨应该是社会科学计算前沿的学者,瓦茨的团队统计了160万个Twitter账户的7400万条信息。他们发现,如果进行宣传,选择更多影响力较小的账户进行传播,会比选择少量有影响力的账户进行传播效果更好。基于这项研究,沃茨认为,名人并没有推动潮流,相反,潮流推动了名人。尽管如此,毕竟流行趋势难以量化和记录,所以历史只留下了名人的足迹。如果需要计算影响力的前提下,每个用户都将成为影响互联网的一部分,尽管没有人注意到或关注到。他们通过拟合回归树模型的训练和预测得到了这些结论。在客观层面上,重点应更多地放在整体的影响因素上,而不是某个特定的或特殊的个人。
Everyone’s an Influencer: Quantifying Influence on Twitter
脸书朋友的好处:社会资本和大学生对在线社交网站的使用
第二篇论文探讨了当前大学生使用Facebook的目的和想法。特别是用来结交新朋友或与线下朋友在网上交流和联系。论文中的例子是来自密歇根州立大学的大学生调查的统计数据和分析。详细介绍了Facebook对大学生的好处。例如,Facebook为那些自卑和生活满意度低的人提供了更突出的帮助。他们在现实生活和互联网之间有强烈的反差。研究还得出结论,Facebook的桥接社会资本指标与现实紧密相连。相比之下,普通的互联网不能预测社会资本的积累,但社会密集型的Facebook却能实现人际和社会资本的积累。就环境变化和人际关系的复杂性而言,拥有一个现实和虚拟存在相交的社会网络将得到越来越多的关注和启发。
社会系统设计 I
通过协作标签和总结使群组聊天变得有意义
在读这篇文章之前,我在社交群组中有一个感觉:群组聊天很难用!如果你错过了信息,往往要向上查看很多信息。如果你错过了信息往往要向上查看很多信息。有时甚至要把几百条信息逐一阅读。他们担心错过一些关键信息,以解决群聊中每个人都要不断挑战关注信息的问题。这篇文章提出了一个功能,允许人们对不同的信息进行总结、标注和组织。利用群友的力量来帮助组织信息。他们被用来避免其他人错过关键信息。特别是Tilda,一个为Slack设计的原型系统,被开发用来使用参与者留下的标签。这些摘要成为标记,可以被编辑、参考,并发布到特定频道。用户可以对感兴趣的内容进行追踪。特别是通过在社交媒体上发布,对于这项研究,作者表明蒂尔达可以使团队和个人更加个性化和适应他们的需求。在自动化的方向上也做了特别说明。其目的是实现聊天内容的自动总结。作者同样也展望了工作聊天模式的未来,设想了将实现的各种功能的整合。
Making Sense of Group Chat through Collaborative Tagging and Summarization
Soylent:内含众包的文字处理器
本文描述了用于将从众包中获得的人类贡献直接整合到用户界面的架构和交互模式。在自然语言的优势中,“群体脚本记录”得到了实现。文章的文本语义被识别和读取。Soylent用户可以通过它快速地用人类语言提出任意的工作请求。文章给出了几个应用场景的例子,在这些应用场景中,文章的质量被过滤,从而得出高或低的质量。这不仅仅是关于文章中的错别字和拼写错误。令我惊讶的是,它还能识别出遗漏的文字。根据这篇文章,我了解到,这种识别类型是通过查找、纠正和核实来完成的。该工作流程被可视化为三个阶段。我认为这是一个开放的“人类宏观”。它是一种超越以往绿野仙踪方法的方式。它带出了自然语言处理的概念。纳入不同的处理流程,然后处理和自动化的交互模型。
Soylent: A Word Processor with A Crowd Inside
社会系统设计 II
CSCW应用为何失败:组织界面设计和评估中的问题
在第一篇文章中,《为什么CSCW应用会失败:组织界面的设计和评估中的问题》,作者分析了几个计算机辅助的协作应用。这些应用经常受到批评,包括为什么所设计的系统容易失败。在学术上,随着并行计算工程的广泛实施和计算机CSCW领域的快速发展,已经有很多关于计算机辅助协作合作和计算机辅助学习的论文发表。人们希望结合建筑设计概念来解决传统的结构设计问题,例如,指导结构的方案设计,并采用支持的协同工作系统。从而使材料和时间得到优化。此外,结合CSCW技术的方法。要开发计算机支持的协同设计系统。因此,研究支持协同设计的相关产品变得至关重要。对目前的结构方案,自动化满足了规范的所有要求。
Why CSCW Applications Fail: Problems in the Design and Evaluation of Organizational Interfaces
企业的开放式社交微日历:Timely?
第二篇文章,《企业的开放式社交微日历:Timely?》,介绍了一个名为Timely的新社交微日历的系统设计和原理。作者分析了新的社会媒体中的日历系统,找出了一些关于开放访问、社会互动和可发现性的东西。此外,他们还将它们与以人为本的共享模式相结合。通过以企业社交软件和家庭日历的方式评估社交网络上的个人和团体时间管理和安排的群件日历系统,并在比较中平衡系统的及时性、开放性和可发现性。在作者的想法中更注重以用户为中心的事件分享。这是日历系统的核心概念。在收集的许多数据中,重点是以用户为中心,进行结构化分析。我认为作者的想法是一种应用于社交媒体中的应用的做法。然而,它仍然缺乏一些整合工具和语言解析。尽管如此,这并不影响它是一个开放的作品。
An Open, Social Microcalendar for the Enterprise: Timely?
语言分析 I
在不同的文化中,昼夜情绪随工作、睡眠和日照时间的变化而变化
在第一篇文章中,《在不同的文化中,昼夜情绪随工作、睡眠和日照时间的变化而变化》,研究人员调查了来自84个国家的240万Twitter用户。来自84个国家的推特用户。每个人有400多条帖子被分析。一个标准的程序被用来分析他们使用了哪些词。积极的词汇包括优秀和同意,消极的词汇包括讨厌和害怕。结果显示,来自不同文化背景的人有类似的日常情绪节奏。在早上,情绪很高。然后,他们在白天时情绪低落。到了晚上,当到了睡觉的时候,他们的情绪又很高涨。此外,季节性的情绪变化与日长的变化有关。此外,大多数博主在周六和周日的心情都很好。这可能与工作压力小和睡眠充足有关。识别其中的反应的情绪,用于分析博主的情绪,然而,尽管有大量的数据样本。尽管如此,其中的代表性并不充分–例如,分析是基于年龄组的。在不同的年龄段,年轻人对互联网的意识更强。他们发帖的原因也是多种多样的。
Diurnal and Seasonal Mood Vary with Work, Sleep, and Daylength Across Diverse Cultures
社交媒体语言中的个性、性别和年龄:开放词汇法
在第二篇文章中,《社交媒体语言中的个性、性别和年龄:开放词汇法》,Schwartz使用LDA提取的主题特征来构建大五人格特征的函数。在人格特质和主题使用之间发现了一些关联。例如,情绪稳定的人提到更多的体育和生活活动。外向型的人更多地与聚会有关,等等。社交媒体上的语言是研究人格特质的一个丰富的数据库。施瓦茨还利用N-Gram话题模型和词语的结果,利用75000名Facebook用户不断更新的状态构建了一个回归模型,并预测用户的心理状态和随时间变化的关系。随着互联网的快速发展,该模型被用来估计用户在各季的变化。在社交媒体上已经积累了大量的数据,可以用来预测人格。这种方法优于该领域的其他研究。
Personality, Gender, and Age in the Language of Social Media: The Open-Vocabulary Approach
语言分析 II
来自警察随身摄像机录像的语言显示了警察对种族差异的尊重
第一篇文章,《来自警察随身摄像机录像的语言显示了警察对种族差异的尊重》。这篇论文通过分析美国警察身体摄影机镜头中的语言,使用了身体摄影机拍摄的视频。研究发现,警察在拦截和检查车辆时,一般不会像对待白人那样尊重黑人。警察的语言被分析为在日常交通中对白人和黑人社区成员的尊重程度。结果发现,即使在控制了警察的种族、违法行为的严重程度、拦截的地点和拦截的结果之后。警察对黑人和白人社区成员的尊重始终较低。我认为,在自然环境中收集的数据不可避免地包含偏见(性别歧视、种族歧视等)。用这些数据训练深度神经网络将导致有偏见的模型预测。所以,对我来说,使用NLP技术来研究社会科学中的许多重要问题更加关键。然而,与此同时,我们必须面对学习领域的这些伦理困境和社会挑战。在这方面,本文给我们提供了我们需要的先锋思想,以权衡准确性和偏见。
Language from Police Body Camera Footage Shows Racial Disparities in Officer Respect
你不能留在这里:通过仇恨言论审视Reddit在2015年禁令的效力
第二篇文章,《你不能留在这里:通过仇恨言论审视Reddit在2015年禁令的效力》。本文探讨了在一个网站上禁止仇恨言论只会把人们推到其他网站。研究结果提供了一些证据,证明禁止策略可以帮助减少像Reddit这样的大型利基社区中此类行为的发生。相比之下,禁止仇恨言论可以减少一些平台上的争议性内容。同一用户发布的仇恨言论减少了80%-90%,被封杀的社区用户离开Reddit的比例明显高于对比组。然而,这种仇恨言论仍然存在,并可能变得更糟。本文强调,禁止言论的行为并不能使整个互联网更安全或减少仇恨。它只会让这些用户到其他平台上发言。他们对这些平台的切割更加无法控制。
You Can’t Stay Here: The Efficacy of Reddit’s 2015 Ban Examined Through Hate Speech
在线内容管理 I
Crossmod:一个基于跨社区学习的系统来协助Reddit版主
在一篇题为《Crossmod:一个基于跨社区学习的系统来协助Reddit版主》,作者提出并介绍了一个基于AI的Reddit审核系统。这个系统是一种通过分类器的集合,利用许多以前的版主决定的方法。此外,Crossmod使用了一种混合的主动方法,允许子版主用人工决策和监督来增强跨社区学习的自动预测。作者还对10个子版的11位版主进行了形成性访谈研究。通过访谈,他们发现版主需要工具来适应和学习。Crossmod的机器学习后端利用了跨社区学习。他们将后端包裹在一个社会技术架构中,适合现有的工作流程和实践。根据从版主那里得到的反馈,这样一个系统获得了很好的实际效果,在检测版主会删除的评论方面,总体准确率达到86%。然而,作者提出,版主报告说这些评论在某些情况下应该被删除,但目前的社会技术审查架构未能帮助他们这样做。这样的系统填补了Reddit版主缺失的工具,使用机器学习工具进行适当的评论审查。
Crossmod: A Cross-Community Learning-based System to Assist Reddit Moderators
Squadbox:一种利用友源版主打击电子邮件骚扰的工具
在第二篇论文中,《Squadbox:一种利用友源版主打击电子邮件骚扰的工具》,作者提出并开发了一种新的工具–Squadbox,它是版主的一个“友源”,供版主过滤信息和支持在网上受到骚扰的人。作者认为,如果一个博主想拥有一个公开的电子邮件地址来接收警报,同时又想避免收到陌生人的仇恨邮件。那么他可以创建一个Squadbox账户,用她的两个同事作为版主。这样的工具可以为预先批准的电子邮件发送者创建允许列表。Squadbox还对每封邮件的毒性等级进行评级,以帮助版主审查邮件。然而,Squadbox目前只处理电子邮件,但我相信它最终会扩展到其他社交媒体平台。因为这是一种帮助提供混合解决方案的新思维方式。
Squadbox: A Tool to Combat Email Harassment Using Friendsourced Moderation
在线内容管理 II
合成的社会信号:从账户历史中计算得出的社会信号
在第一篇论文中,《合成的社会信号:从账户历史中计算得出的社会信号》,作者提出如何在网上交流之前知道当前账户有风险。然而,这是很困难的。作者使用用户的个人资料、图片、简历、位置和其他信息作为社会信号。一些领域对这种信号进行过滤,并建立了一个名为Sig的系统。这个系统可以获得许多推文,并执行一个算法,得出一个阈值。这个阈值可以判断该用户是否有害。实验招募了11名使用Twitter的志愿者进行实验。志愿者们体验了Sig系统并给出反馈。该系统可以标记账户并确认信息的准确性。它为用户提供足够的信息和建议。这让人们在浏览社交媒体平台时可以节省更多的精力。志愿者的反馈可以确认该系统,并使他们在社交媒体平台上的阅读感觉更舒适。我认为这种模式可以更加普及,并分层次地提供给用户。
Synthesized Social Signals: Computationally-Derived Social Signals from Account Histories
用非确定性同音字替换算法绕过新浪微博的审查制度
在第二篇论文《用非确定性同音字替换算法绕过新浪微博的审查制度》中,作者的团队进行了一项关于自动生成变体词的研究。研究的重点是用户如何通过使用同音和异音变体词来规避审查制度,并尝试使用非确定性算法生成许多新的变体词。此外,通过两个对比实验,如果帖子中的同音字被刻意针对进行改造,这将消耗很多资源和算法运行时间。笔者认为,如果是人类故意的行为操作,只能采取人工行为审查的方式进行检索。机器和算法等操作对这些情况没有很好的解决方案,不能快速有效的解决。我建议呼吁在庞大的微博用户群中进行人工筛选和报告。因为在实验中,以中文为母语的用户可以快速反映同音字的帖子的内容和信息。而且,准确率可以达到99%。
Algorithmically Bypassing Censorship on Sina Weibo with Nondeterministic Homophone Substitutions
可信度和错误信息
发博客就是相信?了解博客可信度的看法
在第一篇论文中,《发博客就是相信?了解博客可信度的看法》,作者分析了推文可信度认知的结果,并研究了特征用户对可信度评估的影响。作者分析了推文对可信度评估的影响。一些学者从认知心理学角度探讨了推文的可信度评估。他们发现,大学生在浏览推文时非常关注信息的可信度。以至于该研究探讨了推文信息的可信度评价。证实了成员感知到的可信度对他们在推特社区的行为的重要性。作者通过实验系统地评估了推文的几个特征对可信度评价的影响。他们发现,用户很难仅仅根据帖子的内容来判断它的真实性。他们会受到诸如用户名等启发式因素的影响。因此,推文作者可以使用特定的策略来提高帖子在读者眼中的可信度。例如,利用一些手段来提高用户的可信度,如认证。
Tweeting is Believing? Understanding Microblog Credibility Perceptions
网上真假新闻的传播
在第二篇论文《网上真假新闻的传播》中,作者认为,谎言比真相传播得更快、更深、更远。更远。此外,他们还举例说,值得信赖的新闻在推特上到达1500人的时间要比虚假新闻长六倍。政治类的谣言比其他所有类别的谣言传播得更快。其次是城市传说、商业、恐怖主义、科学、娱乐和自然灾害。尽管如此,传播值得信赖的新闻的用户有更多的追随者,发更多的推特,而且使用的时间更长。作者通过机器人检测技术删除了机器人传播的转发。事实证明,结果仍然是大致相同的。其中的主要原因有很多,包括假新闻更多是基于故事。这些故事更容易引发人类的恐惧和厌恶等情绪。以至于人们也更愿意传播假新闻。另外,与恐怖主义和自然灾害等相比,假的政治新闻更加根深蒂固。
The Spread of True and False News Online
政治和极化
在线回音室?互联网新闻用户中出于政治动机的选择性曝光
本文首先讨论了回声室的概念及其形成的原因。他还通过研究在线跟踪技术进行了稳健性检查。提出了一个合理的猜想,并证实了其可行性。作者最后分别比较了保守主义和自由主义的比较明显的特征,并对所招募的志愿者的阅读兴趣、阅读时间和阅读感受等数据进行了统计分析。在选择媒体时,个人有可能更频繁地获取与自己信仰一致的信息。然而,与此同时,他们也不太愿意主动回避与自己观点相悖的信息。总的来说,我们专注于美国社会媒体中的两极分化的影响,并扩展研究。
Echo Chambers Online?: Politically Motivated Selective Exposure Among Internet News Users
政治博客圈和2004年美国大选:分裂的博客
这篇论文的中心是代表性,以及两极分化到底意味着什么。我们简要地讨论了我们可以从一个没有代表性的样本中提取什么信息,以及我们如何使其更具代表性。我们还讨论了社区之间的联系是否是微不足道的,似乎得出的结论是它们是不微不足道的。最后,我们讨论了一些反对“过滤泡沫”假说的证据,与该论文的主张形成对比。
The Political Blogosphere and the 2004 U.S. Election: Divided They Blog
大数据
数据ex机器:大数据简介
在第一篇论文《数据ex机器:大数据简介》中,作者论证了基于大数据、人工智能和物联网的新一代数字技术的发展、传播和应用。这将使人类的社会生活更多地暴露在数字环境中,并利用数字系统为系统级数据调解社会互动。我想人们可能会认为数据代表了所有人。计算社会科学的时代正在到来。网络的发展和研究的积累导致了机器学习的广泛使用,这使得计算机可以与数据打交道。作为一门新的学科是结合了社会科学、计算机科学、数学建模和统计学,这发明了处理复杂数据的新工具。它对于利用大数据来完成知识发现、理论探索和验证具有重要意义。大数据的产生和计算机技术的发展使社会计算受到极大关注。新兴的社会计算以前所未有的广度、深度和规模来利用、收集和分析数据。这导致了一种混合理论和数据驱动研究的新范式。
Data ex Machina: Introduction to Big Data
谷歌流感的预言:大数据分析中的陷阱
在第二篇论文《谷歌流感的预言:大数据分析中的陷阱》,作者引用了GFT数据处理的几个细节来支持他们的观点。在这篇文章之前,对GFT预测中的偏差最常见的解释是,媒体的报道导致在流感期间自己没有生病的人进行更多的流感相关搜索。这导致了今年对流感样病例的估计更高。作者更深入地调查了谷歌流行病预测不准确的问题。还讨论了大数据的隐患的性质。大数据的分析很复杂,但由于收集大数据。要保证有像传统数据那样的细致是很有挑战性的。难免会有不准确的地方,我认为以谷歌流感趋势的不准确为例,指出了大数据的根本问题。例如,与数据安全管理和其他方面有关的政策和法规是不完善的。如何平衡数据的开放性和隐私性是很有挑战性的,大数据的利用也面临着伦理问题的挑战。
The Parable of Google Flu: Traps in Big Data Analysis
预测和预报
私人特征和属性可以从人类行为的数字记录中得到预测
在第一篇论文中,《私人特征和属性可以从人类行为的数字记录中得到预测》。这篇论文是基于对Facebook用户喜欢的数据进行建模来预测他们的个性特征。论文中使用的数据集是myPersonality,一个由Facebook开发的第三方个性测试小工具。myPersonality使用经典的心理学量表来测量用户的个性特征。例如,开放性、稳定性等。作者发现,只要用户喜欢的数据。该算法模型可以准确预测用户的特定个性和人口特征。例如,该模型可以预测种族和性别,准确率超过90%。模型还预测了一些只有关联性而没有因果关系的特质。例如,喜欢卷曲的薯条的人可能有相对较高的智商。喜欢丝芙兰的人可能有相对较低的智商。喜欢游泳、《圣经》和《傲慢与偏见》的人有较高的生活满意度。此外,喜欢《科学》杂志和iPod的人对生活的满意度较低。基于此,我认为行为预测是人工智能领域的一个重要里程碑。随着人格测试的广泛使用。研究人员已经开始探索更加客观化和生态化的人格评估方法。
Private Traits and Attributes are Predictable from Digital Records of Human Behavior
探索复杂社会系统中预测的局限性
在第二篇论文《探索复杂社会系统中预测的局限性》中,作者认为,在相当长的时期内。社会系统的巨大复杂性和有限的信息,如缺乏数据和模型,使得社会科学的预测研究在很长一段时间内无法实现。这就造成了社会科学预测研究的不可实现性。从学科史的角度来看,对社会现象或过程的预测。在社会科学研究中一直是缺失的,甚至还没有形成一个标准规范和通用方法。大数据和人工智能的结合,使监测和预测人类群体行为成为现实。在这种技术的背景下,人们更担心人类的隐私不再受到保护。如果这项技术被权力所利用,更多的个人权利的丧失将随之而来。我认为社交媒体中的一些预测的局限性往往是非常偏颇的。这可能导致系统无法从技术层面做出有限的预测。
Exploring Limits to Prediction in Complex Social Systems
伦理与隐私
通过社交网络进行大规模情绪传染的实验证据
在第一篇文章《通过社交网络进行大规模情绪传染的实验证据》中,作者揭露了Facebook的隐蔽情绪测试。作者揭示了Facebook进行的隐蔽的情绪测试。作者通过调整用户每天看到的内容,观察社交网络上的信息是否会影响情绪。作者称,该实验符合Facebook的数据使用规定。一个特殊的算法实现了Facebook的动态信息。这个算法最想做的是什么,是让你开心?你最想看到关于你的朋友和邻居的什么信息?你对什么类型的信息最感兴趣?等等。最终,该研究得出结论,情绪可以通过互联网上的人际网络传播。被切断积极信息流的用户会变得抑郁,而且越来越抑郁。此外,那些被从负面信息流中切出的人变得积极。而且越来越积极。在当前形势下,对网络虚拟空间中的人际关系的研究是近年来社会科学家非常感兴趣的话题。
Experimental Evidence of Massive-scale Emotional Contagion through Social Networks
数据、隐私和更大的利益
在第二篇论文《数据、隐私和更大的利益》中,作者使用机器学习从非医疗数据中推断出跨信息和社会背景的健康状况和风险。他们分析了Twitter和Facebook上的帖子,以确定新妈妈们是否有产后抑郁症的风险。同时,这涉及对匿名数据的大规模汇总分析。这种涉及私人信息的干预措施是否符合规范或社会准则仍然是一个问题。文中详细讨论了数据共享给个人隐私带来的风险,敏感的知识可以从常规的、杂乱的共享的良性数据中推断出来。这些都给美国目前的隐私保护的法律方法带来了困难。出于这个原因,作者认为,政策制定者和公众之间关于数据和机器学习能力的知情讨论将导致对程序和政策的有见地的设计。这些设计可以平衡保护隐私和确保公平的目标与收获科学研究、个人和公共健康的利益。