Hatebase répertorie les discours de haine du monde en temps réel pour que vous n’ayez pas à le faire – TechCrunch


Contrôler le discours de haine est une chose à laquelle presque chaque plate-forme de communication en ligne se débat. Parce que pour le contrôler, vous devez le détecter; et pour le détecter, vous devez le comprendre. Hatebase est une entreprise qui a fait de la compréhension du discours de haine sa mission première et qui fournit cette compréhension en tant que service – de plus en plus précieux.

Essentiellement, Hatebase analyse l’utilisation des langues sur le Web, structure et contextualise les données résultantes, et vend (ou fournit) la base de données résultante à des entreprises et à des chercheurs qui n’ont pas l’expertise pour le faire eux-mêmes.

La société canadienne, une petite mais en pleine croissance, est issue des recherches du projet Sentinel visant à prédire et à prévenir les atrocités en analysant le langage utilisé dans une région déchirée par le conflit.

«Ce que Sentinel a découvert, c’est que le discours de haine tend à précéder l’escalade de ces conflits», a expliqué Timothy Quinn, fondateur et PDG de Hatebase. «Je me suis associé à eux pour construire Hatebase en tant que projet pilote – essentiellement un lexique de discours de haine multilingues. Ce qui nous a surpris, c’est que beaucoup d’autres ONG [non-governmental organizations] commencé à utiliser nos données dans le même but. Nous avons ensuite commencé à demander à de nombreuses entités commerciales d’utiliser nos données. L'année dernière, nous avons donc décidé de le lancer en tant que startup. ”

Vous pensez peut-être «qu’il est difficile de détecter une poignée d’insultes ethniques et de phrases haineuses?». Bien sûr, tout le monde peut vous dire (peut-être à contrecœur) les insultes et les propos offensants les plus courants – dans leur langue… qu’ils connaissent. Le discours de haine ne se résume pas à quelques mots laids. C’est tout un genre d’argot, et l’argot d’une seule langue remplirait un dictionnaire. Qu'en est-il de l'argot de toutes les langues?

Un lexique changeant

Comme Victor Hugo l'a souligné dans Les Misérables, l'argot (ou «argot» en français) est la partie la plus mutable de toutes les langues. Ces mots peuvent être «solitaires, barbares, parfois hideux»… Argot, étant le langage de la corruption, est facilement corrompu. De plus, comme il cherche toujours le déguisement dès qu'il perçoit qu'il est compris, il se transforme ».

L'argot et le discours de haine sont volumineux, mais ils changent constamment. La tâche de le cataloguer est donc continue.

Hatebase utilise une combinaison de processus humains et automatisés pour interroger le Web public lors de l'utilisation de termes liés à la haine. «Nous consultons de nombreuses sources – la plus importante, comme vous pouvez l’imaginer, est Twitter – et nous intégrons tous ces éléments pour les remettre à Hatebrain. C’est un programme en langage naturel qui passe par la poste et renvoie vrai, faux ou inconnu. "

Vrai signifie qu’il est pratiquement certain que c’est un discours haineux – comme vous pouvez l’imaginer, il existe de nombreux exemples. Faux veut dire non, bien sûr. Et inconnu signifie que ça ne peut pas être sûr; c’est peut-être un sarcasme, ou une conversation académique à propos d’une phrase, ou une personne utilisant un mot qui appartient au groupe et qui tente de la récupérer ou de réprimander ceux qui l’utilisent. Ce sont les valeurs qui sortent via l'API, et les utilisateurs peuvent choisir de rechercher plus d'informations ou de contexte dans la base de données plus grande, y compris l'emplacement, la fréquence, le niveau d'offensivité, etc. Avec ce type de données, vous pouvez comprendre les tendances mondiales, mettre en corrélation l'activité avec d'autres événements ou simplement vous tenir au courant du monde en constante évolution des insultes ethniques.

Le discours de haine a été signalé partout dans le monde – une poignée a été détectée aujourd'hui, ainsi que la latitude et la longitude de la propriété intellectuelle d'où ils proviennent.

Quinn ne prétend pas que le processus est magique ou parfait. "Il y a très peu de 100 pour cent de Hatebrain", a-t-il expliqué. «Cela varie un peu de l'approche d'apprentissage automatique utilisée par d'autres. ML est formidable lorsque vous avez un ensemble d’entraînement sans ambiguïté, mais avec un discours humain et un discours de haine, qui peuvent être si nuancés, c’est là que se produisent des préjugés. Nous n’avons tout simplement pas un corpus énorme de discours de haine, car personne ne peut convenir de ce que le discours de haine est. "

Cela fait partie du problème auquel font face des entreprises comme Google, Twitter et Facebook: vous ne pouvez pas automatiser ce qui ne peut pas être compris automatiquement.

Heureusement, Hatebrain utilise également l'intelligence humaine, sous la forme d'un corps de volontaires et de partenaires qui authentifient, évaluent et agrègent les points de données les plus ambigus.

«Nous avons un groupe d’ONG qui travaillent en partenariat avec nous dans des régions linguistiquement diverses du monde entier et nous venons de lancer notre programme de« linguistes citoyens », une branche bénévole de notre société, qui met constamment à jour, approuve et nettoie définitions ", a déclaré Quinn. «Nous accordons une grande authenticité aux données qu’ils nous fournissent.»

Cette perspective locale peut être cruciale pour comprendre le contexte d'un mot. Il a donné l'exemple d'un mot au Nigeria qui, lorsqu'il est utilisé entre les membres d'un groupe, signifie ami, mais lorsqu'il est utilisé par ce groupe pour désigner quelqu'un d'autre, signifie non éduqué. Il est peu probable que quiconque sauf un Nigérian puisse vous le dire. Actuellement, Hatebase couvre 95 langues dans 200 pays et s’y ajoute constamment.

En outre, il existe des «intensificateurs», des mots ou des expressions qui ne sont pas choquants en soi, mais servent à indiquer si quelqu'un insiste sur l'insulte ou la phrase. D'autres facteurs entrent également en jeu, dont certains qu'un moteur en langage naturel pourrait ne pas être en mesure de reconnaître, car il dispose de très peu de données à leur sujet. Ainsi, en plus de maintenir les définitions à jour, l'équipe travaille également de manière constante à l'amélioration des paramètres utilisés pour classer par catégorie les rencontres de Hatebrain par la parole.

Construire une meilleure base de données pour la science et le profit

Le système vient d’absorber sa millionième observation de discours de haine (sur peut-être des dizaines de fois le nombre de phrases évaluées), ce qui semble simultanément et peu à la fois. C’est un peu parce que le volume de discours sur Internet est si vaste que l’on s’attend plutôt à ce que même une infime proportion de ceux qui constituent le discours de haine s’élève à des millions et des millions.

Mais c’est beaucoup parce que personne d’autre n’a constitué une base de données de cette taille et de cette qualité. Un ensemble de mots et d'expressions approuvés, comportant des millions de points de données, classés comme discours de haine ou comme discours de haine est un bien précieux à lui tout seul. C’est pourquoi Hatebase le fournit gratuitement aux chercheurs et aux institutions qui l’utilisent à des fins humanitaires ou scientifiques.

Mais les entreprises et les grandes organisations qui cherchent à sous-traiter la détection de discours de haine à des fins de modération paient un droit de licence, ce qui permet de garder la lumière et d’exister.

«Nous avons, je pense, quatre des dix plus grands réseaux sociaux du monde qui extraient nos données. Les Nations Unies collectent des données, des ONG et des organisations hyper locales travaillant dans des zones de conflit. Nous extrayons des données pour la LAPD depuis deux ans. Et nous parlons de plus en plus aux ministères », a déclaré Quinn.

Ils ont un certain nombre de clients commerciaux, dont beaucoup sont sous NDA, a noté Quinn, mais le plus récent à s’être joint au public l’a été publiquement, c’est TikTok. Comme vous pouvez l’imaginer, une plate-forme populaire de ce type a grandement besoin d’une modération rapide et précise.

En fait, il s’agit d’une crise, dans la mesure où des lois pénalisent énormément les entreprises qui ne suppriment pas le contenu incriminé dans les meilleurs délais. Ce genre de menace détend vraiment les cordons de la bourse; Si une amende peut atteindre des dizaines de millions de dollars, en payer une fraction importante pour un service comme celui de Hatebase est un bon investissement.

«Ces grands écosystèmes en ligne doivent extraire ces informations de leurs plates-formes et automatiser un certain pourcentage de leur contenu modéré», a déclaré Quinn. "Nous ne pensons jamais que nous serons capables de nous débarrasser de la modération humaine, c’est un objectif ridicule et irréalisable; Ce que nous voulons faire, c'est aider à l'automatisation déjà en place. Il est de plus en plus irréaliste que chaque communauté en ligne sous le soleil construise sa propre base de données massive de discours de haine multilingues, sa propre intelligence artificielle. De la même manière que les entreprises n’ont plus leur propre serveur de messagerie, elles utilisent Gmail ou des salles de serveurs, elles utilisent AWS – c’est notre modèle, nous nous appelons le discours de haine en tant que service. Environ la moitié d’entre nous adorons ce terme, mais pas la moitié, mais c’est vraiment notre modèle. "

Les clients commerciaux de Hatebase ont rendu la société rentable dès le premier jour, mais ils ne «roulent pas d’argent par tous les moyens».

"Nous étions à but non lucratif jusqu'à ce que nous partions, et nous ne nous en séparons pas, mais nous voulions nous autofinancer", a déclaré Quinn. S'en remettre à la gentillesse de riches étrangers n'est pas un moyen de rester en affaires, après tout. La société embauche et investit dans son infrastructure, mais Quinn a indiqué qu’elle ne cherchait pas à faire croître le secteur des jus de fruits, mais s’assurait que les emplois qu’il fallait faire demandaient à quelqu'un de les faire.

Entre-temps, Quinn et tous les autres utilisateurs ont compris que ce type d’information a une réelle valeur, même s’il est rarement simple.

«C’est un problème vraiment compliqué. Nous sommes toujours aux prises avec ce problème, vous savez, quel est le rôle joué par le discours de haine? Quel rôle joue la désinformation? Quel rôle la socioéconomie joue-t-elle? «L’Université de Warwick a publié un excellent article qui étudie la corrélation entre le discours de haine et la violence à l’égard des immigrés en Allemagne entre 2015 et 2017, je tiens à le dire. Et son pic de pic, vous savez, est valable pour Valley. C'est incroyable. Nous n’effectuons pas beaucoup d’analyses, nous sommes un fournisseur de données. ”

"Mais maintenant, comme, près de 300 universités extrayant les données, et ils faire ce genre d'analyses. C’est donc très validant pour nous.

Vous pouvez en apprendre plus sur Hatebase, rejoindre le Citizen Linguists ou un partenariat de recherche, ou consulter des observations récentes et des mises à jour de la base de données sur le site Web de la société.