Ingredients list cutting: ignore phrases: Difference between revisions

From Open Food Facts wiki
(Created page with "The phrases in an ingredients list that can be removed/ignored (situation 14 Oct 2023). This is used for /wiki.openfoodfacts.org/Ingredients List Cutting|Ingredients List Cu...")
 
No edit summary
Line 1: Line 1:
The phrases in an ingredients list that can be removed/ignored (situation 14 Oct 2023). This is used for [[/wiki.openfoodfacts.org/Ingredients List Cutting|Ingredients List Cutting]].
The phrases in an ingredients list that can be removed/ignored (situation 14 Oct 2023). This is used for [[Ingredients List Cutting]].
 
<code>'bs' => [</code>
 
<code>'u promjenljivom odnosu',    # in a variable ratio</code>
 
<code>],</code>
 
<code>'da' => [</code>
 
<code>'^Mælkechokoladen indeholder (?:også andre vegetabilske fedtstoffer end kakaosmør og )?mindst',</code>
 
<code>],</code>
 
<code>'de' => ['^in ver[äa]nderlichen Gewichtsanteilen$', '^Unter Schutzatmosph.re verpackt$',],</code>
 
<code>'en' => [</code>
 
<code># breaking this regexp into the comma separated combinations (because each comma makes a new ingredient):</code>
 
<code># (allerg(en|y) advice[:!]? )?(for allergens[,]? )?(including cereals containing gluten, )?see ingredients (highlighted )?in bold</code>
 
<code># We can't just trim it from the end of the ingredients, because trace allergens can come after it.</code>
 
<code>'^(!|! )?allerg(en|y) advice([:!]? for allergens)?( including cereals containing gluten)?( see ingredients (highlighted )?in bold)?$',</code>
 
<code>'^for allergens( including cereals containing gluten)?( see ingredients (highlighted )?in bold)?$',</code>
 
<code>'^including cereals containing gluten( see ingredients (highlighted )?in bold)?$',</code>
 
<code>'^see ingredients in bold$',</code>
 
<code>'^in var(iable|ying) proportions$',</code>
 
<code>'^dietary advice[:]?$',</code>
 
<code>'^in milk chocolate cocoa solids',</code>
 
<code>'^the milk chocolate contains vegetable fats in addition to cocoa butter and cocoa solids',</code>
 
<code>'^meat content',</code>
 
<code>'^packaged in a protective atmosphere',</code>
 
<code>],</code>
 
<code>'fr' => [</code>
 
<code>'(\%|pourcentage|pourcentages) (.*)(exprim)',</code>
 
<code>'pour( | faire | fabriquer )100'</code>
 
<code>,    # x g de XYZ ont été utilisés pour fabriquer 100 g de ABC</code>
 
<code>'contenir|présence',    # présence exceptionnelle de ... peut contenir ... noyaux etc.</code>
 
<code>'^soit ',    # soit 20g de beurre reconstitué</code>
 
<code>'en proportions variables',</code>
 
<code>'en proportion variable',</code>
 
<code>'^équivalent ',    # équivalent à 20% de fruits rouges</code>
 
<code>'^malgré ',    # malgré les soins apportés...</code>
 
<code>'^il est possible',    # il est possible qu'il contienne...</code>
 
<code>'^(facultatif|facultative)'</code>
 
<code>,    # sometime indicated by producers when listing ingredients is not mandatory</code>
 
<code>'^(éventuellement|eventuellement)$'</code>
 
<code>,    # jus de citrons concentrés et, éventuellement, gélifiant : pectine de fruits.</code>
 
<code>'^(les )?informations ((en (gras|majuscule|italique))|soulign)'</code>
 
<code>,    # Informations en gras destinées aux personnes allergiques.</code>
 
<code>'^(pour les )?allerg[èe]nes[:]?$',    # see english above.</code>
 
<code>'^y compris les cereales contenant du gluten$',</code>
 
<code>'^voir (les )?ingr[ée]dients (indiqu[ée]s )?en gras$',</code>
 
<code>'^(les allerg[èe]nes )?sont indiques en gras$',</code>
 
<code>'^Conditionné[es]* sous atmosphère',    # ... protectrice/contrôlée/modifiée/etc</code>
 
<code>],</code>
 
<code>'fi' => [</code>
 
<code>'^(?:Täysjyvää|Kauraa) \d{1,3}\s*% leivän viljasta ja \d{1,3}\s*% leivän painosta$',</code>
 
<code>'^jyviä ja siemeniä \d{1,3}\s*% leivontaan käytettyjen jauhojen määrästä$',</code>
 
<code>'^(?:Täysjyvä(?:ruista|ä)|Kauraa) \d{1,3}\s*% viljaraaka-aineesta',</code>
 
<code>'^Lihaa? ja lihaan verrattav(?:at|ia) valmistusaine(?:et|ita)',</code>
 
<code>'^Maitosuklaa sisältää maidon kiinteitä aineita vähintään',</code>
 
<code>'^Leivontaan käytetyistä viljasta \d{1,3}\s*% on ruista$',</code>
 
<code>'^(?:Maito|Tummassa )?suklaassa(?: kaakaota)? vähintään',</code>
 
<code>'^(?:Jauhelihapihvin )?(?:Suola|Liha|Rasva)pitoisuus',</code>
 
<code>'^sisältää kaakaovoin lisäksi muita kasvirasvoja$',</code>
 
<code>'^Vähintään \d{1,3}\s*% kaakaota maitosuklaassa$',</code>
 
<code>'^(?:Täysmehu|hedelmä|ruis)(?:osuus|pitoisuus)',</code>
 
<code>'(?:saattaa|voi) sisältää (?:ruotoja|luuta)$',</code>
 
<code>'^Sisältää \d{1,3}\s*% (?:siemeniä|kauraa)$',</code>
 
<code>'^Maitosuklaa sisältää kaakaota vähintään',</code>
 
<code>'^vastaa \d{1,3}\s*% viljaraaka-aineista$',</code>
 
<code>'^Kuorta ei ole tarkoitettu syötäväksi$',</code>
 
<code>'^Kollageeni\/liha-proteiinisuhde alle',</code>
 
<code>'^Valmistettu (?:myllyssä|tehtaassa)', # Valmistettu myllyssä, jossa käsitellään vehnää.</code>
 
<code>'^Kuiva-aineiden täysjyväpitoisuus',</code>
 
<code>'^Tuote on valmistettu linjalla'</code>
 
<code>,    # Tuote on valmistettu linjalla, jossa käsitellään myös muita viljoja.</code>
 
<code>'^jota käytetään leivonnassa'</code>
 
<code>,    # Sisältää pienen määrän vehnää, jota käytetään leivonnassa alus- ja päällijauhona.</code>
 
<code>'^Leivottu tuotantolinjalla'</code>
 
<code>,    # Leivottu tuotantolinjalla, jossa käsitellään myös muita viljoja.</code>
 
<code>'^vastaa 100 g porkkanaa$',</code>
 
<code>'^Tuotteessa mustikkaa$',</code>
 
<code>'vaihtelevina osuuksina',</code>
 
<code>'^lakritsin osuudesta$',</code>
 
<code>'^Kaakaota vähintään',</code>
 
<code>'^(?:Maito)?rasvaa',</code>
 
<code>'^täysjyväsisältö',</code>
 
<code>],</code>
 
<code>'hr' => [</code>
 
<code>'^u tragovima$',    # in traces</code>
 
<code>'označene podebljano',    # marked in bold</code>
 
<code>'savjet kod alergije',    # allergy advice</code>
 
<code>'u promjenjivim omjerima|u promjenjivim udjelima|u promijenljivom udjelu'</code>
 
<code>,    # in variable proportions</code>
 
<code>'uključujući žitarice koje sadrže gluten',    # including grains containing gluten</code>
 
<code>'za alergene',    # for allergens</code>
 
<code>'u promjenjivim udjelima'    # in variable proportions</code>
 
<code>],</code>
 
<code>'it' => ['^in proporzion[ei] variabil[ei]$',],</code>
 
<code>'nb' => ['^Pakket i beskyttende atmosfære$',],</code>
 
<code>'nl' => [</code>
 
<code>'^allergie.informatie$', 'in wisselende verhoudingen',</code>
 
<code>'harde fractie', 'o\.a\.',</code>
 
<code>'en',</code>
 
<code>],</code>
 
<code>'pl' => [</code>
 
<code>'^czekolada( deserowa)?: masa kakaowa min(imum)?$',</code>
 
<code>'^masa kakaowa( w czekoladzie mlecznej)? min(imum)?$',</code>
 
<code>'^masa mleczna min(imum)?$',</code>
 
<code>'^(?>\d+\s+g\s+)?(?>\w+\s?)*?100\s?g(?> \w*)?$',  # "pomidorów zużyto na 100 g produktu"</code>
 
<code>'^\w*\s?z \d* g (?>\w+\s?)*?100\s?g\s(?>produktu)?$'</code>
 
<code>,    # "Sporządzono z 40 g owoców na 100 g produktu"</code>
 
<code>'^(?>\d+\s+g\s+)?(?>\w+\s?)*?ze\s+\d+\s?g(?>\s+\w*)*$' # "produktu wyprodukowano ze 133 g mięsa wieprzowego"</code>
 
<code>],</code>
 
<code>'ru' => [</code>
 
<code>'^россия$', '^состав( продукта)?$',</code>
 
<code>'^энергетическая ценность$', '^калорийность$',</code>
 
<code>'^углеводы$', '^не менее$',</code>
 
<code>'^средние значения$', '^содержат$',</code>
 
<code>'^идентичный натуральному$', '^(g|ж|ул)$'</code>
 
<code>],</code>
 
<code>'sl' => [</code>
 
<code>'lahko vsebuje',</code>
 
<code>'lahko vsebuje sledi',    # may contain traces</code>
 
<code>],</code>
 
<code>'sv' => [</code>
 
<code>'^Minst \d{1,3}\s*% kakao I chokladen$',</code>
 
<code>'^Mjölkchokladen innehåller minst',</code>
 
<code>'^Kakaohalt i chokladen$',</code>
 
<code>'varierande proportion',</code>
 
<code>'kan innehålla ben$',</code>
 
<code>'^Kakao minst',</code>
 
<code>'^fetthalt',</code>
 
<code>],</code>

Revision as of 11:49, 14 October 2023

The phrases in an ingredients list that can be removed/ignored (situation 14 Oct 2023). This is used for Ingredients List Cutting.

'bs' => [

'u promjenljivom odnosu',    # in a variable ratio

],

'da' => [

'^Mælkechokoladen indeholder (?:også andre vegetabilske fedtstoffer end kakaosmør og )?mindst',

],

'de' => ['^in ver[äa]nderlichen Gewichtsanteilen$', '^Unter Schutzatmosph.re verpackt$',],

'en' => [

# breaking this regexp into the comma separated combinations (because each comma makes a new ingredient):

# (allerg(en|y) advice[:!]? )?(for allergens[,]? )?(including cereals containing gluten, )?see ingredients (highlighted )?in bold

# We can't just trim it from the end of the ingredients, because trace allergens can come after it.

'^(!|! )?allerg(en|y) advice([:!]? for allergens)?( including cereals containing gluten)?( see ingredients (highlighted )?in bold)?$',

'^for allergens( including cereals containing gluten)?( see ingredients (highlighted )?in bold)?$',

'^including cereals containing gluten( see ingredients (highlighted )?in bold)?$',

'^see ingredients in bold$',

'^in var(iable|ying) proportions$',

'^dietary advice[:]?$',

'^in milk chocolate cocoa solids',

'^the milk chocolate contains vegetable fats in addition to cocoa butter and cocoa solids',

'^meat content',

'^packaged in a protective atmosphere',

],

'fr' => [

'(\%|pourcentage|pourcentages) (.*)(exprim)',

'pour( | faire | fabriquer )100'

,    # x g de XYZ ont été utilisés pour fabriquer 100 g de ABC

'contenir|présence',    # présence exceptionnelle de ... peut contenir ... noyaux etc.

'^soit ',    # soit 20g de beurre reconstitué

'en proportions variables',

'en proportion variable',

'^équivalent ',    # équivalent à 20% de fruits rouges

'^malgré ',    # malgré les soins apportés...

'^il est possible',    # il est possible qu'il contienne...

'^(facultatif|facultative)'

,    # sometime indicated by producers when listing ingredients is not mandatory

'^(éventuellement|eventuellement)$'

,    # jus de citrons concentrés et, éventuellement, gélifiant : pectine de fruits.

'^(les )?informations ((en (gras|majuscule|italique))|soulign)'

,    # Informations en gras destinées aux personnes allergiques.

'^(pour les )?allerg[èe]nes[:]?$',    # see english above.

'^y compris les cereales contenant du gluten$',

'^voir (les )?ingr[ée]dients (indiqu[ée]s )?en gras$',

'^(les allerg[èe]nes )?sont indiques en gras$',

'^Conditionné[es]* sous atmosphère',    # ... protectrice/contrôlée/modifiée/etc

],

'fi' => [

'^(?:Täysjyvää|Kauraa) \d{1,3}\s*% leivän viljasta ja \d{1,3}\s*% leivän painosta$',

'^jyviä ja siemeniä \d{1,3}\s*% leivontaan käytettyjen jauhojen määrästä$',

'^(?:Täysjyvä(?:ruista|ä)|Kauraa) \d{1,3}\s*% viljaraaka-aineesta',

'^Lihaa? ja lihaan verrattav(?:at|ia) valmistusaine(?:et|ita)',

'^Maitosuklaa sisältää maidon kiinteitä aineita vähintään',

'^Leivontaan käytetyistä viljasta \d{1,3}\s*% on ruista$',

'^(?:Maito|Tummassa )?suklaassa(?: kaakaota)? vähintään',

'^(?:Jauhelihapihvin )?(?:Suola|Liha|Rasva)pitoisuus',

'^sisältää kaakaovoin lisäksi muita kasvirasvoja$',

'^Vähintään \d{1,3}\s*% kaakaota maitosuklaassa$',

'^(?:Täysmehu|hedelmä|ruis)(?:osuus|pitoisuus)',

'(?:saattaa|voi) sisältää (?:ruotoja|luuta)$',

'^Sisältää \d{1,3}\s*% (?:siemeniä|kauraa)$',

'^Maitosuklaa sisältää kaakaota vähintään',

'^vastaa \d{1,3}\s*% viljaraaka-aineista$',

'^Kuorta ei ole tarkoitettu syötäväksi$',

'^Kollageeni\/liha-proteiinisuhde alle',

'^Valmistettu (?:myllyssä|tehtaassa)', # Valmistettu myllyssä, jossa käsitellään vehnää.

'^Kuiva-aineiden täysjyväpitoisuus',

'^Tuote on valmistettu linjalla'

,    # Tuote on valmistettu linjalla, jossa käsitellään myös muita viljoja.

'^jota käytetään leivonnassa'

,    # Sisältää pienen määrän vehnää, jota käytetään leivonnassa alus- ja päällijauhona.

'^Leivottu tuotantolinjalla'

,    # Leivottu tuotantolinjalla, jossa käsitellään myös muita viljoja.

'^vastaa 100 g porkkanaa$',

'^Tuotteessa mustikkaa$',

'vaihtelevina osuuksina',

'^lakritsin osuudesta$',

'^Kaakaota vähintään',

'^(?:Maito)?rasvaa',

'^täysjyväsisältö',

],

'hr' => [

'^u tragovima$',    # in traces

'označene podebljano',    # marked in bold

'savjet kod alergije',    # allergy advice

'u promjenjivim omjerima|u promjenjivim udjelima|u promijenljivom udjelu'

,    # in variable proportions

'uključujući žitarice koje sadrže gluten',    # including grains containing gluten

'za alergene',    # for allergens

'u promjenjivim udjelima'    # in variable proportions

],

'it' => ['^in proporzion[ei] variabil[ei]$',],

'nb' => ['^Pakket i beskyttende atmosfære$',],

'nl' => [

'^allergie.informatie$', 'in wisselende verhoudingen',

'harde fractie', 'o\.a\.',

'en',

],

'pl' => [

'^czekolada( deserowa)?: masa kakaowa min(imum)?$',

'^masa kakaowa( w czekoladzie mlecznej)? min(imum)?$',

'^masa mleczna min(imum)?$',

'^(?>\d+\s+g\s+)?(?>\w+\s?)*?100\s?g(?> \w*)?$',  # "pomidorów zużyto na 100 g produktu"

'^\w*\s?z \d* g (?>\w+\s?)*?100\s?g\s(?>produktu)?$'

,    # "Sporządzono z 40 g owoców na 100 g produktu"

'^(?>\d+\s+g\s+)?(?>\w+\s?)*?ze\s+\d+\s?g(?>\s+\w*)*$' # "produktu wyprodukowano ze 133 g mięsa wieprzowego"

],

'ru' => [

'^россия$', '^состав( продукта)?$',

'^энергетическая ценность$', '^калорийность$',

'^углеводы$', '^не менее$',

'^средние значения$', '^содержат$',

'^идентичный натуральному$', '^(g|ж|ул)$'

],

'sl' => [

'lahko vsebuje',

'lahko vsebuje sledi',    # may contain traces

],

'sv' => [

'^Minst \d{1,3}\s*% kakao I chokladen$',

'^Mjölkchokladen innehåller minst',

'^Kakaohalt i chokladen$',

'varierande proportion',

'kan innehålla ben$',

'^Kakao minst',

'^fetthalt',

],