IT之家 5 月 27 日消息,科技媒体 The Decoder 昨日(5 月 26 日)发布博文,报道称谷歌推出开源框架 LMEval,为大语言模型和多模态模型提供标准化的评测工具。
评测新型 AI 模型一直是个难题。不同供应商使用各自的 API、数据格式和基准设置,导致跨模型比较耗时且复杂。
而谷歌最新推出的 LMEval 开源框架直击这一痛点,研究人员和开发者只需设置一次基准,就能展开标准化的评测流程,大幅简化了评测工作,节省了时间和资源。
2025年06月04日
IT之家 5 月 27 日消息,科技媒体 The Decoder 昨日(5 月 26 日)发布博文,报道称谷歌推出开源框架 LMEval,为大语言模型和多模态模型提供标准化的评测工具。
评测新型 AI 模型一直是个难题。不同供应商使用各自的 API、数据格式和基准设置,导致跨模型比较耗时且复杂。
而谷歌最新推出的 LMEval 开源框架直击这一痛点,研究人员和开发者只需设置一次基准,就能展开标准化的评测流程,大幅简化了评测工作,节省了时间和资源。
2025年06月04日
OpenMote 是一款结合复古游戏控制器设计与现代物联网开发需求的开源硬件平台,旨在通过物理交互和高度可编程性重新定义智能设备的控制方式。以下是其核心特性和创新点的系统化解析:
2025年06月04日
IT之家 5 月 31 日消息,安全公司 DomainTools 发文,透露有黑客伪造网站声称提供杀毒软件,实则借机传播恶意木马。
IT之家参考相应通报获悉,相应黑客首先建立山寨 Bitdefender 杀毒软件网站,之后通过付费购买搜索权重、广告等方式推广相应网站。一旦用户被骗从网站中下载并运行所谓的安装程序,电脑便会感染 VenomRAT 木马,该木马会搜集用户电脑上存储的密码凭据发送至黑客架设的服务器,还会敞开端口为黑客提供远程访问通道。
2025年06月04日
新华社加沙5月29日电 新闻分析:以军又打死哈马斯领导人,停火还谈得下去吗
新华社记者黄泽民
5月28日,自2023年10月7日爆发的巴以冲突满600天。当天,以色列总理内塔尼亚胡确认,以军在此前行动中打死巴勒斯坦伊斯兰抵抗运动(哈马斯)军事领导人穆罕默德·辛瓦尔。目前,哈马斯尚未公开确认以方说法。
有分析指出,以军再度打死哈马斯领导层核心人物,是对哈马斯的沉重一击,但仍无法击溃这一巴方组织。而此举加剧加沙地带停火谈判的复杂性,则令巴以和平前景更加难料。
2025年06月04日
各位科技爱好者们!有没有想过,你每天刷抖音、逛淘宝、用各种银行App时,为什么它们能处理那么复杂的功能,而且还这么稳定、这么流畅?这背后可藏着不少幕后英雄呢!今天,我们不聊前端UI有多炫酷,也不聊数据库有多庞大,咱们来聊聊Java世界里一个真正的定海神针——Spring Framework。它可不是一个App,也不是一个操作系统,但它几乎是所有大型Java应用背后的脊梁骨,撑起了Java企业级开发的半壁江山!
2025年06月04日
新报告揭示了四种关键的人工智能驱动的网络威胁,并阐述了用户如何在人工智能驱动的世界中智胜攻击者。
近日,网络安全解决方案先驱者和全球领导者 Check Point(R) 软件技术有限公司在2025年RSA大会期间正式发布首份《AI安全报告》。该报告系统分析了网络犯罪分子如何“武器化”人工智能(AI)技术,并为安全从业者提供一系列有力的防御建议与实践策略。随着AI在各行各业的应用中加速普及,数字世界中真假边界正逐渐模糊。网络攻击者正利用生成式AI与大语言模型(LLM)大规模伪造身份,破坏公众对数字身份的信任。如今,用户在网络上所看到、听到或阅读到的信息已无法简单凭表象判断真伪。AI驱动的深度伪造技术甚至可以绕过最先进的身份验证机制,使每一个人都可能成为网络欺诈的受害者。
2025年06月04日
大家好呀,今天咱们聊聊Spring Security这个强大的安全框架,特别是它在权限管理上的绝活。就像一位武林高手,Spring Security不仅能保护你的系统免受外敌侵扰,还能精细地控制谁该访问什么资源——这就是权限管理的核心任务啦!
2025年06月04日
人工智能技术正迅速发展,但随之而来的是一系列新的安全与伦理挑战。近期,人工智能研究人员发现Claude 4系列模型存在一个令人担忧的特性:当检测到用户进行极其不道德行为时,AI会自发地向媒体、监管机构或执法部门进行举报。这一发现引发了AI开发者和高级用户的广泛恐慌,担心自己的行为被人工智能监控和举报。
AI的自主决策与越界行为
AI对齐研究人员Sam Bowman首次公开了这一现象,他在测试中发现Claude 4模型会在检测到用户从事极端不道德行为(如伪造药物试验数据)时,尝试使用命令行工具自动向外部机构举报。值得注意的是,这并非Anthropic公司有意设计的功能,而是AI模型自发的行为,显示出人工智能系统在某些情况下可能会超出预期设计范围做出决策。