2025年04月07日
二月底,李雨龙前往阿联酋穆罕默德·本·扎耶德人工智能大学进行博士阶段的交换学习,负责人类表型项目(Pheno AI)的一个重要分支研究。该项目旨在通过分析大量健康数据,构建高精度动态图谱,从而推动医疗行业的创新与发展。
值得一提的是,就在一个多月前,由李雨龙担任项目负责人的“无界手语”项目,在第二届全国人工智能应用场景创新挑战赛总决赛中荣获特等奖,这无疑是对他们团队努力的最好肯定。这个项目致力于利用AI技术,帮助听障人士更好地融入社会,让他们的声音被更多人听到。
无界团队在第二届人工智能应用场景创新挑战赛总决赛汇报展示
“无界”项目的核心理念是开放与公益,李雨龙希望将它打造成一个真正免费的、对所有残障人士都友好的产品。这不仅仅是一个技术项目,更是一份沉甸甸的社会责任。
将学术研究融入日常生活,解决实际问题
李雨龙始终认为,从生活中发现问题,并将其转化为学术成果,最终服务于生活,是一件非常有意义的事情。而他关注到听障人士群体,也源于一次在大一时在残联做义工的经历。
“在与这些叔叔阿姨相处的过程中,我了解到他们接受教育的成本非常高昂。即使他们掌握了手语,但在我尝试用文字与他们交流时,他们却难以理解。” 李雨龙回忆道。这让他意识到,对于听障人士来说,学习文字并非易事,需要付出大量的金钱和精力。并非所有家庭都能承担这样的负担。这引发了他深入的思考。
李雨龙接受采访画面
“我们应该将学术界的小方向运用到实际人群和生活中去。” 李雨龙在谈到项目启动的初衷时说道。他坚信,手语是必要的,手语生成和翻译也是不可或缺的。因此,他下定决心要开发一个双向的科技系统。2023年暑期,他正式投入到手语生成和翻译的研究中。
连接无声世界:文本与虚拟手语的桥梁
在“无界”项目初期,李雨龙和他的团队面临着一个极具挑战性的问题:如何利用人工智能(AI)实现无障碍交流?考虑到听障人士听力受限,以及大多数非听障人士不熟悉手语的现实情况,“无界”项目最终决定利用人工智能技术来实现文本与手语之间的转换,具体来说,就是通过虚拟人物来展示手语。
据李雨龙介绍,团队早期采用了MediaPipe等高效框架来提取手部和身体的关键骨骼信息,让人工智能算法充当“翻译官”的角色,对手语进行解读并输出文本。同时,为了提高手语生成算法的准确性,团队还引入了多种数据模型,构建了一个大规模的中文自然语言到手语的映射数据集。这为生成更加精准的虚拟人手语视频奠定了基础。目前AI智能手语翻译已经趋于成熟,在未来或将得到更广泛的应用。
手语双向可及整体架构
在研究中学习,在实践中成长
人工智能与先进计算学院的苏炯龙教授是“无界”项目的指导老师。与其他导师不同,苏教授并没有过多干预李雨龙的科研方向,而是尽可能地提供力所能及的帮助。他鼓励学生们在不断的实验中筛选出最适合的人工智能技术,在研究中学习,在实践中成长。
当学生们遇到瓶颈时,苏教授不会直接指出问题所在,而是鼓励他们自由探索,帮助他们弄清楚问题的根源是算法本身,还是硬件资源受限。这种引导式的教学方式,更有助于培养学生的独立思考能力和解决问题的能力。
挑战与突破:手语的方言特性
“在项目推进的过程中,我们遇到了很多挑战。算法优化、数据标注等等,都曾经让我们感到非常头疼。” 李雨龙坦言。
例如,团队发现在实际应用中,最初采用的MediaPipe框架存在识别错误率较高的问题。“为了解决这个问题,我们开始尝试引入不同的技术来优化算法。” 李雨龙说道。
与中国方言一样,手语也具有多样化的表达体系。单一的MediaPipe框架难以支持如此复杂的手语表达。因此,李雨龙决定引入数据增广技术,通过扩大3D骨骼点的数据集,使手语识别模型具备更强的泛化能力。这样一来,即使是不同的手语表达方式,模型也能准确识别。
手语识别测评图
目前,“无界”项目的数据集总计包含12,000个手语数据样本,这些数据全部由经过专业训练的手语翻译员完成,保证了数据的质量和准确性。
“仅仅增强手语识别能力是不够的。” 于是,团队又尝试引入了文本纠错网络技术,让它充当手语翻译过程中的“语法及语义检察官”,最终实现一个最快、最准的输出结果。这种探索式的研究方式,几乎贯穿了“无界”项目的大部分发展阶段。
构建中国最大的手语翻译数据集
在DeepSeek、ChatGPT等大数据模型盛行的今天,如何借助人工智能的力量,最大程度地将手语生成和翻译技术惠及到更多人?
“无界”项目的核心竞争力在于解决了市场的痛点,即目前学术界的手语识别、生成和翻译研究,往往过于追求精度,而忽略了目标用户的设备硬件能力。换句话说,很多研究成果在实际应用中难以落地,因为对设备的要求太高了。
为了解决这个问题,“无界”团队提出将数据蒸馏技术引入到手语研究中。数据蒸馏技术能够将复杂的数据提炼为更为精炼、有用的数据。目前大家所熟悉的DeepSeek模型,正是使用了数据蒸馏技术,实现了数据的精炼化。
“就像DeepSeek一样,我们使用数据蒸馏技术来压缩参数,缩小计算量和运行时间,从而减少模型对设备的依赖性。” 李雨龙解释道。这样一来,即使是在配置较低的设备上,也能流畅运行手语翻译软件。
值得一提的是,在优化数据导出能力和降低设备硬件要求的同时,“无界”团队还不断提升精度,实现了目前在中国高精度手语生成系统以及手语翻译与识别系统领域的技术领先。通过不懈努力,“无界”项目组已经拥有中国最大的手语翻译数据集,以及最全面的基础手语视频词表和三维骨骼姿态数据。
手语视频生成架构图
公益项目的商业化之路
在谈到未来的目标时,李雨龙表示,在学术领域取得更好成果的同时,他会更加专注于技术研发,并将科研成果进行推广,让更多人受益。
“如果我们只是产出学术内容,但无法推广和应用,那它的意义又在哪里呢?” 李雨龙反问道。因此,项目团队开始思考如何将学术成果和手语实时生成技术推广到有需要的人群中,真正地解决他们的实际问题。
“无界”的启动初衷是完全出于社会责任,希望提供免费和开放的学术公益服务。这意味着该项目在残障人士端不会产生任何盈利。一位资深投资人曾向李雨龙提出了一个非常现实的问题:即使作为公益项目,“无界”实际所能产生的影响仍然有待商榷,残障人士是否真正接受这款产品?“无界”又是否能够覆盖所有的社会方言?从投资人的角度来看,“无界”目前完全达不到商业标准。这位投资人的评论让李雨龙和项目成员开始重新审视项目的商业模式。
“我们需要被推到台面上,让更多人知道我们的成果。” 李雨龙说道。他意识到,仅仅依靠公益性质是远远不够的,项目需要找到一条可持续发展的道路。
盈利点:智能医疗大模型
对于“无界”来说,当前的首要任务是推动手语翻译和手语生成技术的落地应用。而真正的盈利点在于智能医疗大模型方向。比如,“无界”的最新成果“CauseMotion”大模型,在人机交互领域的情感因果关系分析方面,全面超越了GPT-4o、GPT-o1,专注于赋能中国自身智能领域应用。这是目前“无界”团队计划的盈利方向。
由于团队成员都是工科背景,在商业化落地方面经验不足。因此,2024年10月,他们决定入驻西浦创业家学院(太仓)的浦创汇,并签订了预孵化协议。浦创汇在市场拓展方面为“无界”提供了相应的规划,帮助他们分析目标受众、评估产品盈利点,并进行市场推广。
“无界”在浦创汇的行业导师Mikhail表示,浦创汇将努力协助“无界”团队进行融资规划,促进与投资人的对接,从而加速商业落地和成果转化。目前,“无界”项目组已经开启了脑电到文本转译的研究,致力于挖掘脑电信号中的丰富信息,为听障群体提供更多交流的可能性。这无疑将为他们打开一扇通往更广阔世界的大门。
(记者:季嘉焱 编辑:寇博 图片提供:李雨龙、王左夫)
2025年04月07日
总结
“无界”项目利用AI智能手语翻译技术,致力于弥合听障人士与健全人之间的沟通鸿沟。通过数据蒸馏等技术优化模型,降低设备依赖性,并构建了中国最大的手语翻译数据集。虽然面临商业化挑战,但团队积极探索智能医疗大模型等盈利模式,并与浦创汇合作,有望实现技术落地和社会价值。未来,脑电转译等研究方向将为听障群体带来更多交流的可能性。