Stage1st

 找回密码
 立即注册
搜索
查看: 8370|回复: 26
打印 上一主题 下一主题

[欢乐] TikTok 前员工透露隔离美国数据的工作“很大程度上是表面功夫”

[复制链接]
     
跳转到指定楼层
楼主
发表于 2024-4-18 00:27 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
自2022年以来,TikTok 进行了名为“德克萨斯计划”的大规模、昂贵的公司重组,以将其美国业务和美国用户的数据与其中**公司字节跳动隔离开来。然而,几名前员工告诉《财富》杂志,德克萨斯计划“基本上只是表面功夫”,计划实施后,他们和他们的同事仍继续与北京的字节跳动高管密切合作。根据德克萨斯计划的条款,美国人的数据不能离开美国,字节跳动在中国的员工也不能访问这些数据。

埃文·特纳于2022年4月至9月期间在 TikTok 担任数据科学家,他描述了一条“隐形指挥链”,其中他被重新分配到西雅图的一位经理手下,但仍向中国高管汇报工作。每隔两周左右,特纳就会将包含数十万美国用户数据的电子表格通过电子邮件发送给北京的字节跳动员工。他说,这些电子表格包括用户姓名、电子邮件地址、IP 地址以及地理和人口统计信息,用于确定如何开发 TikTok 的算法,以鼓励用户在该应用上更加活跃。

—— 《财富》杂志、TheVerge

https://fortune.com/2024/04/15/tiktok-china-data-sharing-bytedance-project-texas/




Excel实在太好用辣

论坛助手,iPhone
回复

使用道具 举报

     
2#
发表于 2024-4-18 00:32 | 只看该作者
他们明明可以收集发送你的观看数据,却只选择用表格记录你的邮件、位置信息和人种信息

—— 来自 S1Fun
回复

使用道具 举报

     
3#
发表于 2024-4-18 00:38 | 只看该作者
本帖最后由 ycjiang1337 于 2024-4-18 00:39 编辑

数据的跨境传输本来就是必然结果,无非就是个人信息在传输之前要进行脱敏之后并且经过法务审核。同时模型本身也不需要知道某个用户具体叫什么名字。
为什么不在美国训练?因为在美国部署跟国内一样的算法Pipeline反过来会受到中国出口管制限制,估计字节之前申请的出口许可只能包括向美国TT输出训好的模型,且不允许交接给美资企业。



回复

使用道具 举报

4#
发表于 2024-4-18 00:49 | 只看该作者
明明就是新闻学杰作。Project Texas是2022年7月才开始实施的,这个员工2022年9月就离职了,所以流程还没做好,有什么奇怪的?
回复

使用道具 举报

头像被屏蔽
     
5#
发表于 2024-4-18 00:50 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
6#
发表于 2024-4-18 00:51 来自手机 | 只看该作者
我怎么觉得我以前看过这个文章
回复

使用道具 举报

     
7#
发表于 2024-4-18 00:56 来自手机 | 只看该作者
这新闻肯定是文科生写的
回复

使用道具 举报

8#
发表于 2024-4-18 00:56 来自手机 | 只看该作者
真是摆设就好了我人在美国都看不到美国用户数据。别说数据了,日志我都看不到。
干了这么多年码农,第一次盲修bug
回复

使用道具 举报

9#
发表于 2024-4-18 00:57 | 只看该作者
数据无法对应到个体就可以,连欧盟无非也是这样要求的
回复

使用道具 举报

     
10#
发表于 2024-4-18 01:04 | 只看该作者
tiktok,两周,数十万用户,EXCEL,姓名邮箱IP地址,开发算法

这上面这么多关键词就没一个是靠谱的。这人真的是“数据科学家”吗?不会只是请来应付LGBT政策的吉祥物吧?
回复

使用道具 举报

11#
发表于 2024-4-18 01:22 来自手机 | 只看该作者
让他先用excel处理数十万用户的数据
回复

使用道具 举报

     
12#
发表于 2024-4-18 02:08 | 只看该作者
因为excel上限是100万
回复

使用道具 举报

     
13#
发表于 2024-4-18 02:21 来自手机 | 只看该作者
别尬黑,说不定用的是Access
回复

使用道具 举报

     
14#
发表于 2024-4-18 03:15 | 只看该作者
这是DS又不是码农,Excel是基本素养哪个公司敢说自己的DS部门从来不用Excel发数据,你草台我草台大家都草台

地理和人口统计信息估计就是常见的demographic数据随便找哪个data broker都能买到,几十万够训练很多东西了。你要说合规那肯定是不合规的,不过这看起来就是发些用户数据忘了脱敏PII而已
回复

使用道具 举报

15#
发表于 2024-4-18 03:17 | 只看该作者
其实是表面功夫也不意外,反而再度论证草台班子
回复

使用道具 举报

     
16#
发表于 2024-4-18 03:24 | 只看该作者
本帖最后由 御坂MKII 于 2024-4-18 03:29 编辑

怎么可能,现代系统的权限设计还是足够完善了。大不了直接断网隔绝
头条查 tiktok bug 的难度和 Cloud 托管的 SaaS vendor 查客户问题一样,甚至更麻烦。
SaaS vendor 自己还能多整点儿观测性的活,我认识的头条人想查 tiktok 的问题还得遥控对面的老白男获取信息实在是酸爽
对面商务部要是能抓到类似的有意为之的事儿早就按头开大了,可惜
回复

使用道具 举报

     
17#
发表于 2024-4-18 05:24 来自手机 | 只看该作者
都这样了,只能支持美国封禁TikTok了
回复

使用道具 举报

     
18#
发表于 2024-4-18 05:45 来自手机 | 只看该作者
白木亚绘香 发表于 2024-4-18 03:15
这是DS又不是码农,Excel是基本素养哪个公司敢说自己的DS部门从来不用Excel发数据,你草台我草台大 ...

乐,地理和个人信息能训练啥
训练ai怎么开盒吗
回复

使用道具 举报

     
19#
发表于 2024-4-18 07:21 | 只看该作者
和我去改变世界 发表于 2024-4-18 05:45
乐,地理和个人信息能训练啥
训练ai怎么开盒吗

你想让我说的简单点还是说的直接点
回复

使用道具 举报

     
20#
发表于 2024-4-18 07:35 | 只看该作者
excel也能用csv,百万行的数据小意思啦

论坛助手,iPhone
回复

使用道具 举报

     
21#
发表于 2024-4-18 07:40 来自手机 | 只看该作者
银月术士329 发表于 2024-4-18 07:21
你想让我说的简单点还是说的直接点

真的有吗能说的简单直接点吗谢谢
回复

使用道具 举报

     
22#
发表于 2024-4-18 07:47 来自手机 | 只看该作者
这就是美国人对算法数据的理解吗?

—— 来自 nubia NX721J, Android 14上的 S1Next-鹅版 v2.5.4
回复

使用道具 举报

     
23#
发表于 2024-4-18 08:08 | 只看该作者
和我去改变世界 发表于 2024-4-18 07:40
真的有吗能说的简单直接点吗谢谢

https://b23.tv/6T1shGH


央视军事
回复

使用道具 举报

     
24#
发表于 2024-4-18 08:42 | 只看该作者
幽远ghofar 发表于 2024-4-18 01:04
tiktok,两周,数十万用户,EXCEL,& ...

有个错误需要指正,现在能应付lgbt的人在他们眼里才是真正需要认真删选出来的专家,其他业务的所谓专家好点差点,多点少点都无所谓的无非是赚多赚少的问题,LGBT专家没选好整个企业可都是要没的
回复

使用道具 举报

     
25#
发表于 2024-4-18 09:35 | 只看该作者
本帖最后由 白木亚绘香 于 2024-4-18 09:36 编辑
和我去改变世界 发表于 2024-4-18 05:45
乐,地理和个人信息能训练啥
训练ai怎么开盒吗

不知道是在认真问还是在玩梗,我姑且认真回答一下

这里原文说的demographic翻译成个人信息其实有点偏差,会给人一种明摆着涉及到个人隐私的感觉。其实这个意思更类似于人口普查或者人口统计,最常见的demographic数据包括年龄、性别、家庭收入、就业状态、教育水平、种族,等等等等。简单来说最典型的demographic数据就是每十年一次人口普查的时候会让你填的东西。这些数据不一定是包括PII(Personal Identifiable Information)的,也就是说很常见的情况是这些数据并不会对应到精确到个人。举个例子,如果我知道一个街区里面95%的人都是年收入20万,那我就可以把年收入20万当成这个街区里面每个人的年收入,而且不会错得很离谱。
实际工作中demographic很多时候也用来泛指“第三方数据”,而不是狭义的人口普查数据。比如说有这么一类公司叫data aggregator或者compiler,他们做的事情是把从各个渠道收集来的数据汇总在一起变成消费者行为数据,试图对应到个人,然后再卖给企业。比如说从Nielsen和claritas这类公司买到他们自己收集的消费者数据,从Foursquare买地理位置记录,从IQVIA买医疗数据,从visa/mastercard买交易记录,从Oracle买线上数据。很多数据是受到严密监管不能精确到个人的,比如医疗和财务数据,但是可以像上一段的例子里那样交易一群人的整体数据。这些data aggregator把所有渠道的数据汇总,然后用自己的算法把数据分配到个人,就可以得到比较精确的消费者行为数据了。举个例子,如果你住的街区90%的人每年花2万块钱买冻鳗周边,你可能就会在「二次元爱好者」这一个指标上被打上高分,那我如果是一个二次元公司把你作为潜在消费者对待是很合理的,至于你是不是真的也花两万块钱对我来说计较的意义不大。这类公司美国有,中国也有。美国的我比较熟悉的有Epsilon、Acxiom、和Altair,国内不太熟悉但是随便一搜就搜到一个上海的Wind。大型的广告集团或者咨询公司一般都会有下属机构是专精这个领域的,在此不赘。
前面是说了这个demographic数据里面可能包含什么,跟开盒大概是没多大关系的然后来说说这些数据可以被用来干什么。最基础的用法就是推荐算法和广告投放。如果我有一个二十万人的名单和他们的数据,然后我发现凡是年收入五十万以上住在上海的人都喜欢看咖啡视频,那现在来了一个新用户年收入五十五万上海人我应该给他推荐什么视频?当然是咖啡视频。这就是最基础的协同过滤了。至于抖音上千千万万种不同的视频我怎么能看出来年收入五十万以上住在上海的人都喜欢看咖啡视频?我当然不知道,这就是要训练模型的地方。模型在训练之后会知道「X群体喜欢Y」,然后如果新用户被模型判定为属于X群体,那我就给他推荐Y。这里面为了更精确,当然是知道关于用户的数据越多越好。

至于我为什么说这个新闻可能是草台论,是因为模型训练和数据分析本身是不需要姓名邮箱IP地址这种PII的,但是这些数据存在企业内部的时候很大一部分时候是包括的PII的(自己公司存自己的用户数据凭什么不能存姓名邮箱IP地址)。不那么草台的公司会有完善的权限管理甚至column level access control来确保只有有权限的人才能接触到PII,但是很多公司也都是在抓到有人用邮件明文发这些东西(甚至被罚款)之后才开始重视的按抖音这个尿性你要我赌它是处心积虑一盘大棋一定要用Excel泄露敏感数据还是拉了一批数据出来忘了删掉姓名邮箱IP地址,我肯定是赌草台啦

评分

参与人数 3战斗力 +3 收起 理由
~Au~ + 1 好评加鹅
FROST1997 + 1 好评加鹅
和我去改变世界 + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
26#
发表于 2024-4-18 09:38 | 只看该作者
登子说要大选之后再来扯 tt 的事
回复

使用道具 举报

     
27#
发表于 2024-4-18 09:44 | 只看该作者
kyomu 发表于 2024-4-18 09:38
登子说要大选之后再来扯 tt 的事

其实意思就是“我还是想搞你的,但搞了你年底我可能不好过,所以等我过了年关再来搞你”
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|Archiver|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|stage1st 沪ICP备13020230号-1 沪公网安备 31010702007642号

GMT+8, 2024-5-2 10:13 , Processed in 0.046512 second(s), 9 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表