Ingredients list cutting: ignore phrases

From Open Food Facts wiki
Revision as of 08:03, 8 August 2024 by Teolemon (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

The phrases in an ingredients list that can be removed/ignored (situation 14 Oct 2023). This is used for Ingredients List Cutting.

'bs' => [

'u promjenljivom odnosu',    # in a variable ratio

],

'da' => [

'^Mælkechokoladen indeholder (?:også andre vegetabilske fedtstoffer end kakaosmør og )?mindst',

],

'de' => ['^in ver[äa]nderlichen Gewichtsanteilen$', '^Unter Schutzatmosph.re verpackt$',],

'en' => [

# breaking this regexp into the comma separated combinations (because each comma makes a new ingredient):

# (allerg(en|y) advice[:!]? )?(for allergens[,]? )?(including cereals containing gluten, )?see ingredients (highlighted )?in bold

# We can't just trim it from the end of the ingredients, because trace allergens can come after it.

'^(!|! )?allerg(en|y) advice([:!]? for allergens)?( including cereals containing gluten)?( see ingredients (highlighted )?in bold)?$',

'^for allergens( including cereals containing gluten)?( see ingredients (highlighted )?in bold)?$',

'^including cereals containing gluten( see ingredients (highlighted )?in bold)?$',

'^see ingredients in bold$',

'^in var(iable|ying) proportions$',

'^dietary advice[:]?$',

'^in milk chocolate cocoa solids',

'^the milk chocolate contains vegetable fats in addition to cocoa butter and cocoa solids',

'^meat content',

'^packaged in a protective atmosphere',

],

'fr' => [

'(\%|pourcentage|pourcentages) (.*)(exprim)',

'pour( | faire | fabriquer )100'

,    # x g de XYZ ont été utilisés pour fabriquer 100 g de ABC

'contenir|présence',    # présence exceptionnelle de ... peut contenir ... noyaux etc.

'^soit ',    # soit 20g de beurre reconstitué

'en proportions variables',

'en proportion variable',

'^équivalent ',    # équivalent à 20% de fruits rouges

'^malgré ',    # malgré les soins apportés...

'^il est possible',    # il est possible qu'il contienne...

'^(facultatif|facultative)'

,    # sometime indicated by producers when listing ingredients is not mandatory

'^(éventuellement|eventuellement)$'

,    # jus de citrons concentrés et, éventuellement, gélifiant : pectine de fruits.

'^(les )?informations ((en (gras|majuscule|italique))|soulign)'

,    # Informations en gras destinées aux personnes allergiques.

'^(pour les )?allerg[èe]nes[:]?$',    # see english above.

'^y compris les cereales contenant du gluten$',

'^voir (les )?ingr[ée]dients (indiqu[ée]s )?en gras$',

'^(les allerg[èe]nes )?sont indiques en gras$',

'^Conditionné[es]* sous atmosphère',    # ... protectrice/contrôlée/modifiée/etc

],

'fi' => [

'^(?:Täysjyvää|Kauraa) \d{1,3}\s*% leivän viljasta ja \d{1,3}\s*% leivän painosta$',

'^jyviä ja siemeniä \d{1,3}\s*% leivontaan käytettyjen jauhojen määrästä$',

'^(?:Täysjyvä(?:ruista|ä)|Kauraa) \d{1,3}\s*% viljaraaka-aineesta',

'^Lihaa? ja lihaan verrattav(?:at|ia) valmistusaine(?:et|ita)',

'^Maitosuklaa sisältää maidon kiinteitä aineita vähintään',

'^Leivontaan käytetyistä viljasta \d{1,3}\s*% on ruista$',

'^(?:Maito|Tummassa )?suklaassa(?: kaakaota)? vähintään',

'^(?:Jauhelihapihvin )?(?:Suola|Liha|Rasva)pitoisuus',

'^sisältää kaakaovoin lisäksi muita kasvirasvoja$',

'^Vähintään \d{1,3}\s*% kaakaota maitosuklaassa$',

'^(?:Täysmehu|hedelmä|ruis)(?:osuus|pitoisuus)',

'(?:saattaa|voi) sisältää (?:ruotoja|luuta)$',

'^Sisältää \d{1,3}\s*% (?:siemeniä|kauraa)$',

'^Maitosuklaa sisältää kaakaota vähintään',

'^vastaa \d{1,3}\s*% viljaraaka-aineista$',

'^Kuorta ei ole tarkoitettu syötäväksi$',

'^Kollageeni\/liha-proteiinisuhde alle',

'^Valmistettu (?:myllyssä|tehtaassa)', # Valmistettu myllyssä, jossa käsitellään vehnää.

'^Kuiva-aineiden täysjyväpitoisuus',

'^Tuote on valmistettu linjalla'

,    # Tuote on valmistettu linjalla, jossa käsitellään myös muita viljoja.

'^jota käytetään leivonnassa'

,    # Sisältää pienen määrän vehnää, jota käytetään leivonnassa alus- ja päällijauhona.

'^Leivottu tuotantolinjalla'

,    # Leivottu tuotantolinjalla, jossa käsitellään myös muita viljoja.

'^vastaa 100 g porkkanaa$',

'^Tuotteessa mustikkaa$',

'vaihtelevina osuuksina',

'^lakritsin osuudesta$',

'^Kaakaota vähintään',

'^(?:Maito)?rasvaa',

'^täysjyväsisältö',

],

'hr' => [

'^u tragovima$',    # in traces

'označene podebljano',    # marked in bold

'savjet kod alergije',    # allergy advice

'u promjenjivim omjerima|u promjenjivim udjelima|u promijenljivom udjelu'

,    # in variable proportions

'uključujući žitarice koje sadrže gluten',    # including grains containing gluten

'za alergene',    # for allergens

'u promjenjivim udjelima'    # in variable proportions

],

'it' => ['^in proporzion[ei] variabil[ei]$',],

'nb' => ['^Pakket i beskyttende atmosfære$',],

'nl' => [

'^allergie.informatie$', 'in wisselende verhoudingen',

'harde fractie', 'o\.a\.',

'en',

],

'pl' => [

'^czekolada( deserowa)?: masa kakaowa min(imum)?$',

'^masa kakaowa( w czekoladzie mlecznej)? min(imum)?$',

'^masa mleczna min(imum)?$',

'^(?>\d+\s+g\s+)?(?>\w+\s?)*?100\s?g(?> \w*)?$',  # "pomidorów zużyto na 100 g produktu"

'^\w*\s?z \d* g (?>\w+\s?)*?100\s?g\s(?>produktu)?$'

,    # "Sporządzono z 40 g owoców na 100 g produktu"

'^(?>\d+\s+g\s+)?(?>\w+\s?)*?ze\s+\d+\s?g(?>\s+\w*)*$' # "produktu wyprodukowano ze 133 g mięsa wieprzowego"

],

'ru' => [

'^россия$', '^состав( продукта)?$',

'^энергетическая ценность$', '^калорийность$',

'^углеводы$', '^не менее$',

'^средние значения$', '^содержат$',

'^идентичный натуральному$', '^(g|ж|ул)$'

],

'sl' => [

'lahko vsebuje',

'lahko vsebuje sledi',    # may contain traces

],

'sv' => [

'^Minst \d{1,3}\s*% kakao I chokladen$',

'^Mjölkchokladen innehåller minst',

'^Kakaohalt i chokladen$',

'varierande proportion',

'kan innehålla ben$',

'^Kakao minst',

'^fetthalt',

],