その巨大なAIモデルにラベル付けを行う町の若者

この記事を読むのに必要な時間は 27 分

技術革命の背景には、常に大規模な廉価労働力の消費があります。

文 | Sleepy.md

山西大同、かつて石炭で半分を支えた都市、今や煤塵を振り払い、鋭いつるはしを手に、もうひとつの無形の鉱山に向けて繰り返し叩きつけられている。

平城区金贸国際中心のオフィスビルには、もはや昇降シャフトもなく、石炭車もない。代わりに、数千の密集したコンピュータワークステーションがある。上海润迅クラウドワイズバリースマートサービス基地は数階を占め、何千人ものヘッドホンを付けた若手従業員が、画面を見つめ、クリックし、ドラッグし、選択している。

公式データによると、2025年11月までに、大同市は74.5万台のサーバーを投入し、69社のコールアノテーションデータ企業が導入され、3万人以上が近隣で雇用され、75億元の価値を生み出しています。このデジタル鉱山では、従事者の94%が現地出身です。

大同だけでなく、国家データ局が指定した最初のデータアノテーション基地では、山西省永和県、貴州省毕節、雲南省蒙自など、中西部の県城が名を連ねています。永和県のデータアノテーション基地では、従業員の80%が女性です。彼女たちのほとんどは、地方の主婦であり、あるいは適切な仕事が見つからない地元に戻ってきた若者です。

100年前、イギリスのマンチェスターの工場には、土地を失った農民が押し込められていました。しかし、今日、これらの遠隔の県都にあるコンピュータ画面の前には、実体経済で居場所を見つけられない若者で埋め尽くされています。

彼らは、非常に未来的でありながらも非常に原始的なピースワーク作業に従事し、北京、深セン、シリコンバレーにいるAIテックジャイアントのために、大規模モデルに必要なデータを生産しています。

誰もがそれに問題を感じていません。

黄土高原の新しい流れ作業

データアノテーションの本質は、機械に世界を認識させることです。

自動運転には信号機や歩行者を認識する必要があり、大規模モデルには猫と犬を区別する必要があります。機械自体には常識がないため、人間がまず画像上に枠を描き、「これは歩行者だ」と教えなければ、何千万もの画像を消化した後でも、機械自己学習ができません。

この仕事には高い学歴は必要ありませんが、忍耐と、絶えずクリックできる指が必要です。

2017年の黄金時代には、シンプルな2Dボックスでも1セント以上の価値があり、一部の企業は5セントを支払うことさえありました。クイックなアノテーターは、1日に10時間以上働くことができ、1日に500〜600ドルを稼ぐことができました。県都では、これは間違いなく高給で品位ある仕事と言えるでしょう。

しかし、大規模モデルの進化とともに、このパイプラインの過酷な側面が露呈し始めました。

2023年になると、単純な画像アノテーションの単価はすでに3から4セントにまで下落し、90％以上も値下がりしました。より難易度の高い3Dポイントクラウド画像でさえ、密集したポイントで構成され、エッジをはっきり見るために何倍も拡大する必要がある画像に対して、アノテーターは立体的なボックスを引き出さなければならず、そのボックスには車両や歩行者をきっちり包囲するのに必要な長さ、幅、高さ、および回転角度が含まれています。しかし、このような複雑な3Dボックスの価格は、わずか5セントに過ぎません。

単価の急落の直接的な結果は、労働強度の激増です。毎月2、3千ドルの基本給を死守するために、アノテーターたちは自分の作業スピードを絶えず向上させなければなりません。

これは決して楽なホワイトカラーの仕事ではありません。多くのアノテーションセンターでは、厳格な管理が窒息するほど厳格であり、仕事中に電話に出ることは許されず、携帯電話は収納スペースにロックされている必要があります。システムは、従業員のマウスの動きと滞在時間を正確に記録し、3分以上停止すると、バックグラウンドからの警告が鞭のように飛んできます。

より困難になるのは許容エラー率です。業界の合格ラインは通常95％以上であり、一部の企業では98％から99％の精度が求められることさえあります。これはつまり、100個のボックスを引いて、2個間違えるだけで、画像全体が差し戻されて再作業を余儀なくされるということです。

動画はフレームごとに変化し、車線変更中の車両が隠されることがあり、アノテーターはそれらを一つ一つ想像して見つけなければなりません。3Dポイントクラウド画像では、10個以上のポイントを持つオブジェクトはボックスを引かなければなりません。複雑な駐車プロジェクトでは、線が長すぎたり欠けていたりすると、品質検査で問題が常に見つかります。1枚の画像を何度も再作業するのは日常茶飯事です。最終的には、1時間かけても数十セントしか手に入れません。

湖南省のあるアノテーターは、自身の清算書をソーシャルメディアに投稿しました。1日働いて700以上のボックスを引き、単価は4セントで、総収入は30.2元でした。

これは非常に分断された光景です。

一方では、発表会で輝かしい科学技術の巨頭たちが、AGIが人類をいかに解放するかについて語っています。他方では、黄土高原や西南部の山村にいる若者たちが、毎日画面を見つめ、8から10時間、機械的にボックスを引き、何千、何万ものボックスを引き、夜になっても夢を見ても、指が車線を引いているのです。

かつて誰かが言ったことがあります。人工知能の外観は颯爽と走っていく高級車であり、しかし、ドアを開けると、中には必死にペダルを漕いでいる100人が自転車に乗っていることに気づくでしょう。

誰もがこれに問題があるとは考えていません。

機械に「愛情を教える」部品工

画像認識のボトルネックが克服されると、大規模モデルはより深い進化を遂げ、人間のように考え、対話し、さらには「共感」すら示すことが求められるようになりました。

こうして、大規模モデルの訓練における最も中心的であり、最も高価な段階である HLFH（Human-Labeled Feedback-based Reinforcement Learning）が生まれました。

要するに、AI が生成した回答を人間が評価し、どの回答がより良く、人間の価値観や感情の好みにより適合しているかを教えるというものです。

ChatGPT が「人間らしく」見えるのは、無数の HLFH ラベラーがその指導にあたっているからです。

クラウドソーシングプラットフォームでは、このようなラベリングタスクは通常明確に価格が提示されます：単価は 3 から 7 ドルです。ラベラーは、AI の回答に対して非常に主観的な感情評価を行い、その回答が「温かい」か、「共感的」か、「ユーザーの感情に配慮している」かを判断する必要があります。

月給数千円を受け取り、現実の泥沼に追われ、自分自身の感情さえ顧みる余裕のない労働者が、AI の感情指導者や価値観の裁判官として機能しなければならないというのは、システム上での逆襲です。

彼らは温かさや共感など、非常に複雑で微妙な人間の感情を無理やり砕き、1 から 5 の冷たいスコアに数値化しなければなりません。彼らの採点がシステムが設定した標準回答と一致しない場合、正確性が不足していると見なされ、わずかな計件賃金から差し引かれてしまいます。

これは認知の空洞です。人間の複雑で微妙な感情、道徳、思いやりは、アルゴリズムの漏斗に強制的に引き込まれています。冷たい定量化と標準化のスケールの中で、それらは最後のひとかけらの温かさまで搾り取られています。画面の中のサイバージャイアントが詩を書いたり作曲したり、親しみを示したり、さらには感傷的な外見を身につけたりすることに驚嘆している一方で、画面の外では、その生命力あふれる人間たちは機械的な判断の毎日の中で、感情のない採点マシンに退化してしまっています。

これはこの産業全体の最も秘密裏に行われる部分であり、どんな資金調達ニュースや技術論文にも登場しません。

誰もがこれに問題があるとは考えていません。

985 大学院生と田舎の若者

底辺の仕事が AI のトラックによって圧縮されつつある中、このサイバーフローアセンブリラインは徐々に上方に広がり、より高次の知的労働を飲み込み始めています。

大型モデルの食欲が変わりました。もはや単純な常識を噛み砕くことに満足していません。人間の専門知識やハイオーダーロジックを消化する必要があります。

主要な求人プラットフォームでは、「大型モデルの論理推論アノテーション」「AIヒューマニティートレーナー」といった特殊な兼職が頻繁に表示され始めています。これらの兼職は非常に高いハードルを持ち、しばしば「985/211の修士号以上」が求められ、法律、医学、哲学、文学などの専門分野が関わることがあります。

多くの名門大学院生が魅了され、これらの大手企業のアウトソーシンググループに流入しています。しかし、彼らはすぐに気づきます。これは簡単な知的運動ではなく、精神的苦痛の応酬なのです。

正式にオーダーを受ける前に、数十ページに及ぶスコアリングディメンションや判断基準ファイルを読み、2〜3ラウンドのトライアルアノテーションを行う必要があります。基準を満たすと、本番のアノテーション中に平均よりも正解率が低い場合、資格を失い、グループチャットから除外されます。

最も息苦しいのは、これらの基準が実際には固定されていないことです。類似の問題と回答に直面した場合、同じ考え方でスコアリングを行っても、結果はまったく異なることがあります。まるで絶対に終わることのない、かつ標準答えがない試験用紙を解いているようなものです。自己努力や学習で正解率を向上させることはできず、ただ原地で延々と回転し続け、脳力と体力を消耗するだけです。

これが新しい剝削の形態、階級の折り畳みである大型モデル時代なのです。

知識は以前は障壁を打ち破り、上昇していくための黄金の階段と見なされていましたが、今やアルゴリズムに捧げられる、より複雑なデジタル飼料に堕落しています。アルゴリズムとシステムの絶対的な権力の前では、イボタワーの985修士と黄土高原の町の若者は、最も奇妙な同じ道をたどっています。

彼らは共にこの底の見えないサイバー採掘坑に落ち、栄光を剥奪され、差異をなくし、すべてが安価でいつでも交換可能な歯車になりました。

海外でも同様です。2024年、アップルはサンディエゴの121人のAI音声アノテーションチームを一掃しました。これらの従業員はSiriの多言語処理能力を向上させていました。彼らは自分たちが大手企業の核心業務の縁に立っていると考えていましたが、瞬時に失業の淵に落ちました。

テクノロジージャイアントにとって、町のスリープレスマザーや名門大学卒の論理トレーナーのどちらも基本的にはいつでも交換可能な「消耗品」です。

だれもがそれが問題だとは思っていません。

兆ドルのバベルの塔、何セントの血の汗で築かれた

中国通信院のデータによると、2023年に中国のデータアノテーション市場規模は608億元に達し、2025年には200〜300億元に達する見込みであり、2030年までに、世界のデータアノテーションおよびサービス市場の売上高は1171億元まで急増すると予測されています。

これらの数字の背後には、OpenAI、Microsoft、バイトダンスなどのテクノロジージャイアントがあり、それらの企業の時価総額は数千億ドルから数兆ドルにも上る見積もりの狂騒が行われています。

しかし、この天文学的な富は、本当にAIを「養い育てる」人々には流れていません。

中国のデータアノテーション業界は、典型的な逆ピラミッドのアウトソーシング構造を示しています。最上位には、中核アルゴリズムを握りしめているテクノロジージャイアントがおり、第二層には大手データサービスプロバイダー、第三層には各地に点在するデータアノテーションセンターや中小規模のアウトソーシング企業があり、最下層には計数制の賃金を受け取るアノテーターがいます。

各アウトソーシング層は、次の層からしっかりと利益を搾取します。大企業が提示する単価が 5 銭の場合、重層的な剥奪を経て、県都のアノテーターにまで届く金額は、たとえ 5 銭にも満たないかもしれません。

ギリシャの元財務大臣ヤニス・バルファキスは、著書『テクノロジック封建制』で、非常に洞察に富む見解を提供しています。彼によれば、今日のテクノロジージャイアントは、従来の資本家ではなく、「クラウド領主」（Cloudalists）なのです。

クラウド領主が所有しているものは工場や機械ではなく、アルゴリズム、プラットフォーム、計算リソースです。これらはサイバー時代のデジタル領土です。この新しい封建主義体系では、ユーザーは消費者ではなく、デジタル小作農です。私たちがソーシャルメディアでの一つ一つのいいね、コメント、閲覧を行うたびに、クラウド領主に無料でデータを提供しているのです。

そして、地方市場に分散するデータアノテーターは、この体系の中で最も下層のデジタル奴隷です。彼らはデータを生成するだけでなく、大量の元データをクリーンアップし、分類し、スコアリングし、それを大規模モデルが消化できる高品質な餌に変える必要があります。

これは非常に秘密の知識囲い込み活動です。19世紀のイギリスの囲い込み活動が農民を織布工場に押し込んだのと同様に、今日のAIの波は、現実の経済で自分の場所を見つけられない若者を画面の前に追いやります。

AIは階級間の溝を埋めるのではなく、中国の中西部の県都から直接北京、上海、広州、深センのテクノロジージャイアント本社に至る「データと労働輸送ベルト」を構築しました。技術革命の物語はいつも壮大で華麗ですが、その本質は常に安価な労働力の規模化消費です。

誰もがこれに問題を感じていません。

人間不要の未来

最も残酷な結末が間もなく訪れます。そして、その速度はますます速くなっています。

巨大モデルの能力が向上するにつれて、以前は昼夜を問わず人間の作業が必要だったアノテーションタスクは、AI自体が引き継いでいます。

2023年4月、理想自動車の創設者である李想はフォーラムで、かつて理想が1年間で約1000万フレームの自動運転画像アノテーションを行うのに、外部委託費用が約10億ドルかかっていましたが、大規模なモデルを使用して自動化されたアノテーションを行った結果、過去に1年かかっていた作業を基本的に3時間で完了できるようになりました。

効率は人間の1000倍であり、しかも2023年よりも遥かに早い。過去の3月に、イデアルは新世代のMindVLA-o1自動注釈エンジンをリリースしました。

業界では、非常に真実味のある自虐の言葉が広まっています。「知能がいくつあれば、人工労働がいくつ必要か。」しかし今、大手企業がデータ注釈の外部委託に対する投資を40%から50%も急激に削減しています。

コンピュータの前で数え切れないほどの日々を過ごし、目を真っ赤にするまで夜更かしをした町の若者たちは、巨大な獣を手で育てました。そして今、その巨大な獣は振り返り、彼らのパンを奪っています。

夜が訪れ、ダートンの区のオフィスビルは依然として惨白いままです。交代制の若者たちはエレベーターの中で黙って疲れきった肉体を交換しています。多角形の枠に囚われた折り畳まれた空間で、誰もが遙か大洋の向こうに位置するTransformerアーキテクチャがどのような叙事詩的な飛躍を遂げたかを気にせず、百億のパラメータの背後で轟く計算力を理解することはありません。

彼らの視線は、「合格ライン」を表す赤と緑の進捗バーに溶接され、月末にちょっとした生活を構築するためにその数フン、数銭の数字をばらつかせることができるかどうかを計算しています。

一方では、ナスダックの開店のベルとテクノロジーメディアの大量の記事があり、巨大企業たちはAGIの出現を祝っています。しかしもう一方で、自分たちの血肉の躯を使ってAIを養うデジタル農奴たちは、疲れ果てた夢の中で、自分たちが手元で飼育した巨大な獣が、何気ないある普通の朝、彼らのパンを蹴り飛ばすのを危惧しています。

誰もがこれが問題だと感じていません。

BlockBeats の公式コミュニティに参加しよう：

Telegram 公式チャンネル：https://t.me/theblockbeats

Telegram 交流グループ：https://t.me/BlockBeats_App

Twitter 公式アカウント：https://twitter.com/BlockBeatsAsia

#AI

訂正/通報